Pārklātu runu atdalīšana un apstrāde ar dziļajiem neironu tīkliem

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Latvijas Universitāte

Language

lav

Abstract

Balss apstrādes tehnoloģijas, piemēram, balss-uz-tekstu, mūsdienās ir sasniegušas ļoti labus rezultātus, bet lielākā daļa šo tehnoloģiju ir spējīgas apstrādāt tikai tādu signālu, kas vienlaikus iekļauj tikai viena runātāja balsi. Pastāv vairāki pētījumi dažādu, pārklātu balsu atšķiršanai kā arī nodalīšanai un transkribēšanai. Šī darba ietveros izpētīts nozares esošais stāvoklis – atklājumi, tehnoloģijas un metodes pārklātu runas signālu atdalīšanai – kā arī mēģināts izstrādāt un izvērtēt jaunu risinājumu, kas balstīts uz nesen priekšā stādītās Atlikuma Jaukšanas-Apmaiņas dziļās mašīnmācīšanās tīklu arhitektūras.
Speech processing technologies such as Voice-to-Text have achieved excellent results, but most of these technologies are only capable of processing a signal that consists of only one speaker's voice at a time. The topic of overlapping speech processing – speaker diarization, speaker separation and transcribing – is still an active one. This work focuses on compiling the current state of the field – discoveries, acknowledged technologies and methods for separating speech signals – as well as attempts to develop and evaluate a new solution based on the recently proposed Residual Shuffle-Exchange deep machine learning network architecture.

Citation

Relation

Endorsement

Review

Supplemented By

Referenced By