• English
    • Latviešu
    • Deutsch
    • русский
  • Help
  • русский 
    • English
    • Latviešu
    • Deutsch
    • русский
  • Войти
Просмотр элемента 
  •   Главная
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • Просмотр элемента
  •   Главная
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • Просмотр элемента
JavaScript is disabled for your browser. Some features of this site may not work without it.

Likumbāzēti un mašīnmācīšanās risinājumi latviešu valodas medicīnisko tekstu normalizēšanai

Thumbnail
Открыть
302-96120-Lasmanis_Viesturs.Julijs_vl19039.pdf (1.521Mb)
Автор
Lasmanis, Viesturs Jūlijs
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Grūzītis, Normunds
Дата
2023
Metadata
Показать полную информацию
Аннотации
Medicīniskos tekstos tiek plaši lietoti nozarei specifiski saīsinājumi un skaitļi, kas apgrūtina valodas modelēšanu, piemēram, runas automātiskās atpazīšanas un sintēzes sistēmu izstrādei, īpaši tad, ja nozarspecifiskie valodas dati ir pieejami ierobežotā apjomā. Darbā tiek aplūkotas un salīdzinātas likumbāzētas un mašīnmācīšanās pieejas latviešu valodas medicīnisko tekstu normalizācijai, automātiski pārrakstot šādus tekstus to izrunai iespējami pietuvinātā pierakstā, t.i., izvēršot saīsinājumus, abreviatūras, apzīmējumus, skaitļus u.tml. tekstvienības pilnos vārdos un atbilstošos locījumos. Darbā ir izstrādāti prototipi abām normalizēšanas pieejām un izstrādāto teksta normalizācijas modeļu novērtēšanai ir izmantota autora sagatavota datu kopa. Galā izstrādātais mašīnmācīšanās modelis sasniedz 85,25% precizitāti.
 
Medical texts often contain domain specific abbreviations and numerals, which complicates language modelling, including the training of speech recognition and synthesis models This is especially apparent for domain specific texts due to limited data. In this work, I will look at and analyse rules-based and machine learning approaches for Latvian medical text normalization with the aim of expanding the text to its corresponding pronounced form, including the processing of abbreviations, acronyms, numerical expressions and other text units to their full forms and respective declensions. Within this work the author has created functioning prototypes for both approaches to text normalization and evaluated the model with a dataset specifically made for this task. The final machine learning model reaches an accuracy of 85,25 %.
 
URI
https://dspace.lu.lv/dspace/handle/7/64291
Collections
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [5688]

University of Latvia
Контакты | Отправить отзыв
Theme by 
@mire NV
 

 

Просмотр

Весь DSpaceСообщества и коллекцииДата публикацииАвторыНазванияТематикаЭта коллекцияДата публикацииАвторыНазванияТематика

Моя учетная запись

Войти

Статистика

Просмотр статистики использования

University of Latvia
Контакты | Отправить отзыв
Theme by 
@mire NV