Show simple item record

dc.contributor.advisorZnotiņš, Artūrs
dc.contributor.authorMednis, Dāvis
dc.contributor.otherLatvijas Universitāte. Datorikas fakultāte
dc.date.accessioned2018-07-02T01:07:32Z
dc.date.available2018-07-02T01:07:32Z
dc.date.issued2018
dc.identifier.other65327
dc.identifier.urihttps://dspace.lu.lv/dspace/handle/7/39736
dc.description.abstractRunātāju segmentēšana skaņas ierakstā ir audio analīzes problēma, kas paredz ierakstā dzirdamu cilvēka runas fragmentu identificēšanu un grupēšanu gadījumos, kad vairākus fragmentus izteicis viens un tas pats runātājs. Runātāju segmentēšana ir aktuāla problēma audio ierakstu transkripcijas procesā, kur nepieciešams atbildēt uz jautājumu “kas runāja kad?”. Darbā izpētīts mākslīgo neironu tīklu un dziļās mašīnmācīšanās metožu potenciāls un iespējas runātāju segmentēšanas problēmas risināšanā. Tiek apskatīti gatavi runātāju segmentēšanas risinājumi un to darbības pamatprincipi. Praktiskajā daļā tika izveidots uz neironu tīkliem bāzētas runātāju segmentēšanas sistēmas prototips un datu kopa sistēmas apmācībai. Tika salīdzināti apskatīto runātāju segmentēšanas sistēmu rezultāti reālas darbības scenārijā un salīdzināti ar izstrādātā prototipa sniegumu. No iegūtajiem rezultātiem tika secināts, ka spējīga runas segmentēšanas risinājuma izstrādāšanai nepieciešama kvalitatīva apmācības datu kopa. Tika secināts, ka šobrīd neeksistē kvalitatīvs un viegli lietojams uz neironu tīkliem bāzēts runātāju segmentēšanas risinājums, kas ir brīvi pieejams.
dc.description.abstractSpeaker diarization is an audio analysis problem that involves identifying and grouping audible human speech fragments if multiple utterances were made by the same speaker. Speaker diarization is a relevant issue in the process of transcribing audio recordings where it is necessary to answer the question "Who spoke when?". The paper studies the potential of artificial neural networks, deep engineering techniques and the possibilities of solving the speaker segmentation problem using neural networks. Ready-made speech segmentation solutions and basic principles of operation are reviewed and their result baselines are obtained. The author develops a speaker segmentation system prototype based on artificial neural networks. A training dataset is created using freely available datasets. The author compares the results of the developed prototype with results of the existing solutions The author concludes that a well made training dataset is required to train a performant neural network based solution. It was determined that currently there is no state-of-the-art solution for speaker diarization based on neural networks.
dc.language.isolav
dc.publisherLatvijas Universitāte
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectDatorzinātne
dc.subjectrunātāju segmentēšana
dc.subjectaudio analīze
dc.subjectdziļā mašīnmācīšanās
dc.subjectneironu tīkli
dc.titleRunātāju segmentēšana skaņas ierakstā, izmantojot neironu tīklus
dc.title.alternativeSpeaker diarization in an audio recording using neural networks
dc.typeinfo:eu-repo/semantics/bachelorThesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record