Runātāju segmentēšana skaņas ierakstā, izmantojot neironu tīklus

Mednis, Dāvis

View/Open

302-65327-Mednis_Davis_dm14018.pdf (1.582Mb)

Author

Mednis, Dāvis

Co-author

Latvijas Universitāte. Datorikas fakultāte

Advisor

Znotiņš, Artūrs

Date

2018

Metadata

Show full item record

Abstract

Runātāju segmentēšana skaņas ierakstā ir audio analīzes problēma, kas paredz ierakstā dzirdamu cilvēka runas fragmentu identificēšanu un grupēšanu gadījumos, kad vairākus fragmentus izteicis viens un tas pats runātājs. Runātāju segmentēšana ir aktuāla problēma audio ierakstu transkripcijas procesā, kur nepieciešams atbildēt uz jautājumu “kas runāja kad?”. Darbā izpētīts mākslīgo neironu tīklu un dziļās mašīnmācīšanās metožu potenciāls un iespējas runātāju segmentēšanas problēmas risināšanā. Tiek apskatīti gatavi runātāju segmentēšanas risinājumi un to darbības pamatprincipi. Praktiskajā daļā tika izveidots uz neironu tīkliem bāzētas runātāju segmentēšanas sistēmas prototips un datu kopa sistēmas apmācībai. Tika salīdzināti apskatīto runātāju segmentēšanas sistēmu rezultāti reālas darbības scenārijā un salīdzināti ar izstrādātā prototipa sniegumu. No iegūtajiem rezultātiem tika secināts, ka spējīga runas segmentēšanas risinājuma izstrādāšanai nepieciešama kvalitatīva apmācības datu kopa. Tika secināts, ka šobrīd neeksistē kvalitatīvs un viegli lietojams uz neironu tīkliem bāzēts runātāju segmentēšanas risinājums, kas ir brīvi pieejams.

Speaker diarization is an audio analysis problem that involves identifying and grouping audible human speech fragments if multiple utterances were made by the same speaker. Speaker diarization is a relevant issue in the process of transcribing audio recordings where it is necessary to answer the question "Who spoke when?". The paper studies the potential of artificial neural networks, deep engineering techniques and the possibilities of solving the speaker segmentation problem using neural networks. Ready-made speech segmentation solutions and basic principles of operation are reviewed and their result baselines are obtained. The author develops a speaker segmentation system prototype based on artificial neural networks. A training dataset is created using freely available datasets. The author compares the results of the developed prototype with results of the existing solutions The author concludes that a well made training dataset is required to train a performant neural network based solution. It was determined that currently there is no state-of-the-art solution for speaker diarization based on neural networks.

URI

https://dspace.lu.lv/dspace/handle/7/39736

Collections

Bakalaura un maģistra darbi (EZTF) / Bachelor's and Master's theses [6168]