Please use this identifier to cite or link to this item: http://hdl.handle.net/11422/18244
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorSilva, Geraldo Zimbrão da-
dc.contributor.authorBasilio, Renan Fasolato-
dc.date.accessioned2022-08-05T21:53:24Z-
dc.date.available2023-12-21T03:00:22Z-
dc.date.issued2020-08-
dc.identifier.urihttp://hdl.handle.net/11422/18244-
dc.languageporpt_BR
dc.publisherUniversidade Federal do Rio de Janeiropt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectAprendizado Supervisionadopt_BR
dc.subjectAprendizado de Máquinapt_BR
dc.subjectDiarização de Locutorpt_BR
dc.titleDiarização de locutor em conteúdo de vídeo baseada em análise de expressão facial via aprendizado de máquina supervisionadopt_BR
dc.title.alternativeSpeaker diarization in video content based on facial expression analysis via supervised machine learningpt_BR
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.contributor.referee1Souza, Jano Moreira de-
dc.contributor.referee2Almeida, Heraldo Luís Silveira de-
dc.description.resumoEste trabalho apresenta uma prova de conceito para um sistema diarizador baseado em uma rede neural convolucional capaz de identificar o estado de fala de um locutor a partir de um vídeo do mesmo, sem fazer uso da onda de áudio relacionada, para aplicação em casos onde esta se encontre em baixa qualidade, ruidosa, ou mesmo ausente. Para isso, é realizado um pré-processamento sobre a imagem de entrada de forma a identificar a posição da face do locutor e extrair desta suas feições principais, que servem de entrada para a rede neural. Uma arquitetura para a rede neural baseada em uma VGG, modificada para lidar com dados tridimensionais, foi construída, cuja implementação levou a um modelo com acurácia preditiva de 86.56%, resultando em uma taxa de erro de diarização de 32.5 sobre os dados de teste no melhor caso.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentEscola Politécnicapt_BR
dc.publisher.initialsUFRJpt_BR
dc.subject.cnpqCNPQ::ENGENHARIASpt_BR
dc.embargo.termsabertopt_BR
Appears in Collections:Engenharia de Computação e Informação

Files in This Item:
File Description SizeFormat 
monopoli10031910.pdf5.64 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.