Показать сокращенную информацию

dc.contributor.advisorRozis, Robertsen_US
dc.contributor.authorLuksis, Ritvarsen_US
dc.contributor.otherLatvijas Universitāte. Datorikas fakultāteen_US
dc.date.accessioned2015-03-24T08:23:06Z
dc.date.available2015-03-24T08:23:06Z
dc.date.issued2014en_US
dc.identifier.other44331en_US
dc.identifier.urihttps://dspace.lu.lv/dspace/handle/7/23166
dc.description.abstractKvalifikācijas darbā “Automatizācijas rīki mašīntulkošanas treniņdatu vākšanai no tīmekļa” aprakstīta automatizētas datu ieguves no tīmekļa un apstrādes rīku kopa un tās izstrādes process. Rīku kopa paredzēta vienvalodu teksta korpusu izveidei un sastāv no tīkla rāpuļa un no tīmekļa ievāktā satura apstrādātāja. Tīkla rāpulis atlasa derīgo tekstu izmantojot tekstveidņu aizvākšanas rīku “jusText” un ir pielāgojams pēc tīmekļa adrešu apstaigāšanas ātruma, dziļuma, adresēs apskatāmo lapu (saišu) skaita un apstaigāšanas progresa saglabāšanas biežuma. Pēcapstrādes rīks ievākto teksta saturu apstrādā, gala rezultātā izdodot 1 līdz 3 teksta failus ar teikumiem latviešu, krievu un/vai angļu valodā – vienvalodu korpusus. Rīku kopa ir paredzēta 64 bitu Linux Ubuntu operētājsistēmai un ir izstrādāta skriptošanas valodās Perl un Bash.en_US
dc.description.abstractQualification paper “Automation tools for machine translation training data collection from the web” describes a tool set for automated data extraction from the web and extracted data processing and development process of this tool set. It is intended for forming monolingual text corpora and consists of a web crawler and a crawled content processor. The web crawler picks out useful text from web pages by using “jusText” boilerplate removal tool and can be customized by changing parameters such as browsing speed, depth and frequency of progress saving. The processing tool converts crawled text into 1 to 3 text files containing Latvian, Russian and/or English content respectively – monolingual corpora. Tool set is intended for 64-bit architecture Linux Ubuntu operating system and is developed in Perl and Bash scripting languages.en_US
dc.language.isoN/Aen_US
dc.publisherLatvijas Universitāteen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectDatorzinātneen_US
dc.titleAutomatizācijas rīki mašīntulkošanas treniņdatu vākšanai no tīmekļaen_US
dc.title.alternativeAutomation tools for machine translation training data collection from the weben_US
dc.typeinfo:eu-repo/semantics/bachelorThesisen_US


Файлы в этом документе

Thumbnail

Данный элемент включен в следующие коллекции

Показать сокращенную информацию