• English
    • Latviešu
    • Deutsch
    • русский
  • Help
  • русский 
    • English
    • Latviešu
    • Deutsch
    • русский
  • Войти
Просмотр элемента 
  •   Главная
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • Просмотр элемента
  •   Главная
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • Просмотр элемента
JavaScript is disabled for your browser. Some features of this site may not work without it.

Latviešu valodas korpusa izveide no emuāru tekstiem

Thumbnail
Открыть
302-48819-Laizans_Martins_ml11053.pdf (3.007Mb)
Автор
Laizāns, Mārtiņš
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Pretkalniņa, Lauma
Дата
2015
Metadata
Показать полную информацию
Аннотации
Latviešu valodas korpuss sastāv galvenokārt no periodikas un daiļliteratūras, kur lietotā valoda ir atšķirīga no ikdienā lietotās valodas. Emuāri lielākoties stilistiski ir tuvāki sarunvalodai, jo lielākā daļa to autoru nav profesionāli rakstnieki vai žurnālisti, tāpēc šāda materiāla valodas korpuss paver jaunas pētījumu iespējas gan lingvistiem, gan datorlingvistiem. Darba ietvaros izstrādāta sistēma emuāru tekstu izgūšanai un izveidots korpuss ar ~ 12 milj. teksta vienībām. Darba ietvaros veikta izgūto tekstu kvalitātes izvērtēšana, izmantojot vārdu pamatformu īpatsvaru no leksikona un valodas noteikšanu. Iegūtais materiāls tika sadalīts 4 kvalitātes grupās. Darba gaitā izgūtie teksti apkopoti korpusā un pieejami publiski. Arī izveidotas tekstu izgūšanas izejas kods pieejams publiski turpmāku pētījumu veikšanai.
 
The Latvian text corpus consists mainly of periodicals and fiction texts. However, the representation of the colloquial texts in the Latvian texts corpus is rather scarce. Within this work a tool for extracting texts from blogs was developed. Texts obtained with this tool are included as a sub-corpus in the Latvian text corpus, thus providing better representation of the colloquial and informal language aspects. Created corpus contains ~ 12 million tokens. Such corpus enhances both linguistic and computational research prospects for informal Latvian. An evaluation of the gathered text quality was done using out-of-vocabulary word proportion and language detection. Gathered texts were divided into 4 quality groups. Gathered text corpus is publically available. Also the developed scraping tool source code is made public for future research.
 
URI
https://dspace.lu.lv/dspace/handle/7/29500
Collections
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [5688]

University of Latvia
Контакты | Отправить отзыв
Theme by 
@mire NV
 

 

Просмотр

Весь DSpaceСообщества и коллекцииДата публикацииАвторыНазванияТематикаЭта коллекцияДата публикацииАвторыНазванияТематика

Моя учетная запись

Войти

Статистика

Просмотр статистики использования

University of Latvia
Контакты | Отправить отзыв
Theme by 
@mire NV