Jaunievedumi mašīntulkošanā
Автор
Černejs, Valērijs
Co-author
Latvijas Universitāte. Humanitāro zinātņu fakultāte
Advisor
Ločmele, Gunta
Дата
2014Metadata
Показать полную информациюАннотации
Ideja, ka datorus varētu izmantot tulkošanai, radās 20. gadsimta četrdesmitajos gados. Mašīntulkošanas sistēmas var iedalīt divās kategorijās: mašīntulkošanas sistēmas, kas darbojas, balstoties uz gramatikas likumiem, un mašīntulkošanas sistēmas, kas darbojas, balstoties uz apkopotiem vārdu krājumiem. Šī pētījuma mērķis ir izpētīt jaunākos atklājumus mašīntulkošanas nozarē, aprakstīt mašīntulkošanas sistēmu pielietojumu un galvenos trūkumus un salīdzināt divu statistisko mašīntulkošanas sistēmu darbību. Divvalodu vārdu krājums, kas sastāv no 16748 manuāli sagrupētiem segmentiem (kopējais vārdu skaits 337400), tiks augšupielādēts Let’s MT mašīntulkošanas sistēmā un Google Translator Toolkit sistēmā. Izmantojot šīs mašīntulkošanas sistēmas, tiks iztulkotas trīs dažādu televīzijas raidījumu runu transkripcijas. Tika secināts, ka, lai arī mašīntulkošanas sistēmas spēj iztulkot īsus un nepārprotamus teikumus, kopumā mašīntulkošanas sistēmas nav efektīvas, tulkojot televīzijas raidījumus. The idea that a digital computer could be used for performing translation was suggested soon after the invention of the computer in the 1940s. Throughout the decades various machine translation (MT) systems have been devised which can be grouped into two categories – rulebased MT systems and corpus-based MT systems. The goal of the research is to investigate recent developments in machine translation, describe the application and limitations of these systems and compare the performance of two statistical machine translation systems. A bilingual corpus consisting of 16,748 manually aligned segments (a total of 337,400) words was uploaded to the Let’s MT machine translation system and the Google Translator Toolkit MT system and three scripts of different TV shows were translated. It was concluded that even though MT systems are capable of translating short and unambiguous sentences, in general they do not facilitate the translation process of TV shows.