Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/11422/8298
Especie: | Trabalho de conclusão de graduação |
Título : | Relacionando geometricamente tweets e notícias utilizando a Word Mover's Distance |
Autor(es)/Inventor(es): | Noronha, Victor Garritano |
Tutor: | Paixão, João Antonio Recio da |
Tutor : | Grael, Felipe Fink |
Resumen: | A maneira de consumir e produzir notícias mudou muito ao longo dos anos. Os portais de notícias perderam sua exclusividade como produtores de informação devido à grande popularização das redes sociais. Faz-se necessário, portanto, conseguir acompanhar a repercussão das informações que circulam por essas duas fontes. No entanto, cada um desses meios possui características particulares a respeito do estilo de escrita: textos jornalísticos apresentam uma linguagem formal, ao passo que postagens de redes sociais fazem constante uso de gírias e neologismos, e também podem apresentar erros ortográficos e gramaticais com mais frequência. Além disso, fatos frequentemente possuem repercussão em vários idiomas. Por isso, este trabalho explora técnicas de recuperação de informações multilíngue, baseadas em trabalhos anteriores, para melhor aproveitar as características de cada texto. As palavras de cada documento são representadas por word embeddings, o que permite que informações semânticas sejam levadas em consideração no cálculo das similaridades. Realiza-se então o alinhamento desses espaços vetoriais, para estabelecer relações de significados entre os embeddings de meios e idiomas diferentes. Com isso é possível representar documentos como uma nuvem de pontos em um espaço vetorial comum, e utilizar uma técnica baseada em transporte ótimo de massa para o cálculo da similaridade. Essa abordagem traz ganhos de 15% na precisão em comparação com trabalhos anteriores. |
Materia: | Recuperação da informação Incorporação de palavras Linguagem natural Espaços vetoriais |
Materia CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO |
Unidade de producción: | Instituto de Computação |
Editor: | Universidade Federal do Rio de Janeiro |
Fecha de publicación: | 23-ene-2019 |
País de edición : | Brasil |
Idioma de publicación: | por |
Tipo de acceso : | Acesso Aberto |
Aparece en las colecciones: | Ciência da Computação |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
VGNoronha.pdf | 695.54 kB | Adobe PDF | Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.