Please use this identifier to cite or link to this item: http://hdl.handle.net/11422/8298
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorPaixão, João Antonio Recio da-
dc.contributor.authorNoronha, Victor Garritano-
dc.date.accessioned2019-06-05T12:07:36Z-
dc.date.available2023-12-21T03:05:57Z-
dc.date.issued2019-01-23-
dc.identifier.urihttp://hdl.handle.net/11422/8298-
dc.languageporpt_BR
dc.publisherUniversidade Federal do Rio de Janeiropt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectRecuperação da informaçãopt_BR
dc.subjectIncorporação de palavraspt_BR
dc.subjectLinguagem naturalpt_BR
dc.subjectEspaços vetoriaispt_BR
dc.titleRelacionando geometricamente tweets e notícias utilizando a Word Mover's Distancept_BR
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/5705386762324718pt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/2971002720787707pt_BR
dc.contributor.advisorCo1Grael, Felipe Fink-
dc.contributor.advisorCo1Latteshttp://lattes.cnpq.br/7307455058897826pt_BR
dc.contributor.referee1Silva, João Carlos Pereira da-
dc.contributor.referee2França, Felipe Maia Galvão-
dc.contributor.referee3Ferreira, Fernando Guimarães-
dc.description.resumoA maneira de consumir e produzir notícias mudou muito ao longo dos anos. Os portais de notícias perderam sua exclusividade como produtores de informação devido à grande popularização das redes sociais. Faz-se necessário, portanto, conseguir acompanhar a repercussão das informações que circulam por essas duas fontes. No entanto, cada um desses meios possui características particulares a respeito do estilo de escrita: textos jornalísticos apresentam uma linguagem formal, ao passo que postagens de redes sociais fazem constante uso de gírias e neologismos, e também podem apresentar erros ortográficos e gramaticais com mais frequência. Além disso, fatos frequentemente possuem repercussão em vários idiomas. Por isso, este trabalho explora técnicas de recuperação de informações multilíngue, baseadas em trabalhos anteriores, para melhor aproveitar as características de cada texto. As palavras de cada documento são representadas por word embeddings, o que permite que informações semânticas sejam levadas em consideração no cálculo das similaridades. Realiza-se então o alinhamento desses espaços vetoriais, para estabelecer relações de significados entre os embeddings de meios e idiomas diferentes. Com isso é possível representar documentos como uma nuvem de pontos em um espaço vetorial comum, e utilizar uma técnica baseada em transporte ótimo de massa para o cálculo da similaridade. Essa abordagem traz ganhos de 15% na precisão em comparação com trabalhos anteriores.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentInstituto de Computaçãopt_BR
dc.publisher.initialsUFRJpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAOpt_BR
dc.embargo.termsabertopt_BR
Appears in Collections:Ciência da Computação

Files in This Item:
File Description SizeFormat 
VGNoronha.pdf695.54 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.