Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado

Basilio, Renan Fasolato

Please use this identifier to cite or link to this item: http://hdl.handle.net/11422/18244

Type:	Trabalho de conclusão de graduação
Title:	Diarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionado
Other Titles:	Speaker diarization in video content based on facial expression analysis via supervised machine learning
Author(s)/Inventor(s):	Basilio, Renan Fasolato
Advisor:	Silva, Geraldo Zimbrão da
Abstract:	Este trabalho apresenta uma prova de conceito para um sistema diarizador baseado em uma rede neural convolucional capaz de identificar o estado de fala de um locutor a partir de um vídeo do mesmo, sem fazer uso da onda de áudio relacionada, para aplicação em casos onde esta se encontre em baixa qualidade, ruidosa, ou mesmo ausente. Para isso, é realizado um pré-processamento sobre a imagem de entrada de forma a identificar a posição da face do locutor e extrair desta suas feições principais, que servem de entrada para a rede neural. Uma arquitetura para a rede neural baseada em uma VGG, modificada para lidar com dados tridimensionais, foi construída, cuja implementação levou a um modelo com acurácia preditiva de 86.56%, resultando em uma taxa de erro de diarização de 32.5 sobre os dados de teste no melhor caso.
Keywords:	Aprendizado Supervisionado Aprendizado de Máquina Diarização de Locutor
Subject CNPq:	CNPQ::ENGENHARIAS
Production unit:	Escola Politécnica
Publisher:	Universidade Federal do Rio de Janeiro
Issue Date:	Aug-2020
Publisher country:	Brasil
Language:	por
Right access:	Acesso Aberto
Appears in Collections:	Engenharia de Computação e Informação

Files in This Item:

File	Description	Size	Format
monopoli10031910.pdf		5.64 MB	Adobe PDF	View/Open

Show full item record Recommend this item View Statistics

Pantheon Institutional repository