Use este identificador para citar ou linkar para este item: http://hdl.handle.net/11422/18244
Tipo: Trabalho de conclusão de graduação
Título: Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
Título(s) alternativo(s): Speaker diarization in video content based on facial expression analysis via supervised machine learning
Autor(es)/Inventor(es): Basilio, Renan Fasolato
Orientador: Silva, Geraldo Zimbrão da
Resumo: Este trabalho apresenta uma prova de conceito para um sistema diarizador baseado em uma rede neural convolucional capaz de identificar o estado de fala de um locutor a partir de um vídeo do mesmo, sem fazer uso da onda de áudio relacionada, para aplicação em casos onde esta se encontre em baixa qualidade, ruidosa, ou mesmo ausente. Para isso, é realizado um pré-processamento sobre a imagem de entrada de forma a identificar a posição da face do locutor e extrair desta suas feições principais, que servem de entrada para a rede neural. Uma arquitetura para a rede neural baseada em uma VGG, modificada para lidar com dados tridimensionais, foi construída, cuja implementação levou a um modelo com acurácia preditiva de 86.56%, resultando em uma taxa de erro de diarização de 32.5 sobre os dados de teste no melhor caso.
Palavras-chave: Aprendizado Supervisionado
Aprendizado de Máquina
Diarização de Locutor
Assunto CNPq: CNPQ::ENGENHARIAS
Unidade produtora: Escola Politécnica
Editora: Universidade Federal do Rio de Janeiro
Data de publicação: Ago-2020
País de publicação: Brasil
Idioma da publicação: por
Tipo de acesso: Acesso Aberto
Aparece nas coleções:Engenharia de Computação e Informação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
monopoli10031910.pdf5.64 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.