Uz Moses
Author
Šics, Valters
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Skadiņš, Raivis
Date
2010Metadata
Show full item recordAbstract
Statistiskā mašīntulkošana (SMT) teksta tulkošanai izmanto statistikas datus, kas iegūti no iepriekš tulkotiem tekstiem jeb paralēlajiem korpusiem. Lai iegūtie statistikas dati būtu ticami nepieciešams ļoti daudz šāda teksta. Latviešu valodai paralēlos korpusus iegūt ir krietni grūtāk nekā lielajām valodām kā angļu. Turklāt latviešu valoda ir lokāmu un ar sarežģītu gramatiku. Šī iemesla dēļ ticamas statistikas veidošanai nepieciešams vēl vairāk paralēlo korpusu.
Salīdzinoši nesen ir ieviesti faktormodeļi, kas ļauj veidot SMT, kas papildinātas ar lingvistiskajām zināšanām. Izmantojot informāciju par vārdu locījumiem un vārdšķirām, iespējams precīzāk modelēt tulkojumus. Darba mērķis ir atrast efektīvus faktormodeļus, kas uzlabo tulkojuma kvalitāti angļu-latviešu tulkošanas virzienam.
Eksperimentu ceļā darbā ir pierādīts, ka faktormodeļu izmantošana dod tulkojuma uzlabojumu salīdzinājumā ar tradicionālo SMT. The statistical machine translation (SMT) systems translate a text using a statistical data obtained from the previously translated texts so called parallel corpus. To be sure that statistical data are reliable, requires a lot of such text. Obtaining parallel corpuses for the Latvian language is much harder than for the big languages like English. Furthermore, the Latvian language is highly inflected with complex grammar. For this reason, to achieve reliable statistics, it is necessary for even more parallel corpuses.
Relatively recently factored models has been introduced which allows to build SMT system augmented by linguistic knowledge. Using information of inflections and the parts of speech can accurately produce the translations. The goal is to find effective factored models which improve the quality of the translation in the English-Latvian translation direction.
Experimentation through the work it is shown that the use of factored models gives the translation improvement compared to traditional SMT.