Técnicas para conversão de orador em sinais de voz

Costa, Victor Pereira da

Please use this identifier to cite or link to this item: http://hdl.handle.net/11422/6206

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Biscainho, Luiz Wagner Pereira	-
dc.contributor.author	Costa, Victor Pereira da	-
dc.date.accessioned	2019-01-22T13:29:55Z	-
dc.date.available	2023-12-21T03:05:44Z	-
dc.date.issued	2017-03	-
dc.identifier.uri	http://hdl.handle.net/11422/6206	-
dc.description.abstract	Presents a voice conversion system, a system that transforms a voice signal spoken by some speaker into a signal that sounds like it was spoken by another speaker, without changing the textual content of the speech or changing information like emotion or emphasis. The main objective of this work is to compare the conversion as done by different methods. To accomplish this, a unified voice conversion system containing the analysis, conversion and synthesis steps necessary to transform the speaker was implemented. Four voice conversion techniques, three from the literature, based on Gaussian mixture models, hidden Markov models and feed forward neural networks, and one novel based on recurrent neural networks, were evaluated. Two methods to generate the excitation used in the synthesis step were also implemented, one utilizing a parametric pulse trained on the speech signals, and one utilizing the PSOLA algorithm. On this system a couple of experiments were conducted to assess the conversion quality of each method: one measuring the distance between the cepstra of the signals, and the other employing a speaker recognition system. In these experiments the conversion based on Gaussian mixture models yielded the best results, but all techniques were relatively close in terms of performance.	en
dc.language	por	pt_BR
dc.publisher	Universidade Federal do Rio de Janeiro	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Processamento digital de voz	pt_BR
dc.subject	Processamento de sinais	pt_BR
dc.subject	Reconhecimento de voz	pt_BR
dc.title	Técnicas para conversão de orador em sinais de voz	pt_BR
dc.type	Dissertação	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/3798063417184939	pt_BR
dc.contributor.referee1	Lima Netto, Sergio	-
dc.contributor.referee2	Lima, Amaro Azevedo de	-
dc.description.resumo	Apresenta um sistema de conversão de falante, um sistema que possa transformar um sinal de fala dito por um falante em um sinal que pareça ter sido dito por outro falante, sem alterar o que é dito nem características como emoção ou ênfase. O objetivo principal é a comparação do desempenho de diferentes técnicas para a realização da conversão. Para isso foi implementado um sistema unificado que realiza as etapas de análise, conversão e síntese necessárias para a transformação do falante. Foram avaliadas quatro técnicas de conversão: três da literatura, baseadas em modelos de misturas gaussianas, modelos ocultos de Markov e redes neurais feed-foward; e uma nova, baseada em redes neurais recorrentes. Além disso, também foram implementadas duas técnicas para gerar a excitação na síntese, uma utilizando um pulso paramétrico treinado a partir os sinais de fala e uma utilizando o algoritmo PSOLA. Sobre esse sistema foram realizados dois experimentos para medir a qualidade da conversão, um utilizando como métrica a distância entre os cepstra dos sinais e um utilizando um sistema de identificação de falante. Os testes mostraram que o método baseado em modelo de misturas gaussianas obteve melhores resultados, mas todos os métodos possuem desempenho próximo.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Engenharia Elétrica	pt_BR
dc.publisher.initials	UFRJ	pt_BR
dc.subject.cnpq	CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::MEDIDAS ELETRICAS, MAGNETICAS E ELETRONICAS INSTRUMENTACAO::INSTRUMENTACAO ELETRONICA	pt_BR
dc.embargo.terms	aberto	pt_BR
Appears in Collections:	Engenharia Elétrica

Files in This Item:

File	Description	Size	Format
865750.pdf		553.33 kB	Adobe PDF	View/Open

Show simple item record Recommend this item View Statistics

Pantheon Institutional repository