Automatizācijas rīki mašīntulkošanas treniņdatu vākšanai no tīmekļa
Author
Luksis, Ritvars
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Rozis, Roberts
Date
2014Metadata
Show full item recordAbstract
Kvalifikācijas darbā “Automatizācijas rīki mašīntulkošanas treniņdatu vākšanai no tīmekļa” aprakstīta automatizētas datu ieguves no tīmekļa un apstrādes rīku kopa un tās izstrādes process. Rīku kopa paredzēta vienvalodu teksta korpusu izveidei un sastāv no tīkla rāpuļa un no tīmekļa ievāktā satura apstrādātāja. Tīkla rāpulis atlasa derīgo tekstu izmantojot tekstveidņu aizvākšanas rīku “jusText” un ir pielāgojams pēc tīmekļa adrešu apstaigāšanas ātruma, dziļuma, adresēs apskatāmo lapu (saišu) skaita un apstaigāšanas progresa saglabāšanas biežuma. Pēcapstrādes rīks ievākto teksta saturu apstrādā, gala rezultātā izdodot 1 līdz 3 teksta failus ar teikumiem latviešu, krievu un/vai angļu valodā – vienvalodu korpusus.
Rīku kopa ir paredzēta 64 bitu Linux Ubuntu operētājsistēmai un ir izstrādāta skriptošanas valodās Perl un Bash. Qualification paper “Automation tools for machine translation training data collection from the web” describes a tool set for automated data extraction from the web and extracted data processing and development process of this tool set. It is intended for forming monolingual text corpora and consists of a web crawler and a crawled content processor. The web crawler picks out useful text from web pages by using “jusText” boilerplate removal tool and can be customized by changing parameters such as browsing speed, depth and frequency of progress saving. The processing tool converts crawled text into 1 to 3 text files containing Latvian, Russian and/or English content respectively – monolingual corpora.
Tool set is intended for 64-bit architecture Linux Ubuntu operating system and is developed in Perl and Bash scripting languages.