• English
    • Latviešu
    • Deutsch
    • русский
  • Help
  • English 
    • English
    • Latviešu
    • Deutsch
    • русский
  • Login
View Item 
  •   DSpace Home
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • View Item
  •   DSpace Home
  • B4 – LU fakultātes / Faculties of the UL
  • A -- Eksakto zinātņu un tehnoloģiju fakultāte / Faculty of Science and Technology
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Runātāju segmentēšana skaņas ierakstā, izmantojot neironu tīklus

Thumbnail
View/Open
302-65327-Mednis_Davis_dm14018.pdf (1.582Mb)
Author
Mednis, Dāvis
Co-author
Latvijas Universitāte. Datorikas fakultāte
Advisor
Znotiņš, Artūrs
Date
2018
Metadata
Show full item record
Abstract
Runātāju segmentēšana skaņas ierakstā ir audio analīzes problēma, kas paredz ierakstā dzirdamu cilvēka runas fragmentu identificēšanu un grupēšanu gadījumos, kad vairākus fragmentus izteicis viens un tas pats runātājs. Runātāju segmentēšana ir aktuāla problēma audio ierakstu transkripcijas procesā, kur nepieciešams atbildēt uz jautājumu “kas runāja kad?”. Darbā izpētīts mākslīgo neironu tīklu un dziļās mašīnmācīšanās metožu potenciāls un iespējas runātāju segmentēšanas problēmas risināšanā. Tiek apskatīti gatavi runātāju segmentēšanas risinājumi un to darbības pamatprincipi. Praktiskajā daļā tika izveidots uz neironu tīkliem bāzētas runātāju segmentēšanas sistēmas prototips un datu kopa sistēmas apmācībai. Tika salīdzināti apskatīto runātāju segmentēšanas sistēmu rezultāti reālas darbības scenārijā un salīdzināti ar izstrādātā prototipa sniegumu. No iegūtajiem rezultātiem tika secināts, ka spējīga runas segmentēšanas risinājuma izstrādāšanai nepieciešama kvalitatīva apmācības datu kopa. Tika secināts, ka šobrīd neeksistē kvalitatīvs un viegli lietojams uz neironu tīkliem bāzēts runātāju segmentēšanas risinājums, kas ir brīvi pieejams.
 
Speaker diarization is an audio analysis problem that involves identifying and grouping audible human speech fragments if multiple utterances were made by the same speaker. Speaker diarization is a relevant issue in the process of transcribing audio recordings where it is necessary to answer the question "Who spoke when?". The paper studies the potential of artificial neural networks, deep engineering techniques and the possibilities of solving the speaker segmentation problem using neural networks. Ready-made speech segmentation solutions and basic principles of operation are reviewed and their result baselines are obtained. The author develops a speaker segmentation system prototype based on artificial neural networks. A training dataset is created using freely available datasets. The author compares the results of the developed prototype with results of the existing solutions The author concludes that a well made training dataset is required to train a performant neural network based solution. It was determined that currently there is no state-of-the-art solution for speaker diarization based on neural networks.
 
URI
https://dspace.lu.lv/dspace/handle/7/39736
Collections
  • Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [5688]

University of Latvia
Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

Statistics

View Usage Statistics

University of Latvia
Contact Us | Send Feedback
Theme by 
@mire NV