Please use this identifier to cite or link to this item: http://hdl.handle.net/11422/27327

Type: Dissertação
Title: Alocação latente de Dirichlet para modelagem de tópicos em dissertações de mestrado em estatística e áreas correlatas no Brasil
Author(s)/Inventor(s): Argote Osorio, Juan Pablo
Advisor: Pagani Zanini, Carlos Tadeu
Abstract: Esta dissertação aborda a modelagem de tópicos presentes em dissertações de mestrado em estatística e áreas correlatas no Brasil, através de modelos de Alocação Latente de Dirichlet. O principal objetivo é inferir os tópicos latentes abordados nessas dissertações. Primeiramente, discute-se e apresenta-se a construção de um corpus de documentos composto pelas dissertações mais recentes em distintas Instituições de Ensino Superior do Brasil, extraídas manualmente a partir dos endereços eletrônicos de cada um dos programas de mestrado analisados. O procedimento inferencial adotado para o modelo de Alocação Latente de Dirichlet consiste em métodos de Monte Carlo via cadeias de Markov e inferência variacional. Discute-se ainda diferentes métodos para escolha do número de tópicos incluindo critérios de informação como o de Akaike, o Bayesiano, o de Deviância, o de Watanabe-Akaike e métricas baseadas na coerência dos tópicos latentes inferidos. A metodologia adotada fornece uma compreensão aprofundada dos tópicos predominantes nesse corpus.
Abstract: This master’s thesis addresses the topic modeling of master’s theses in statistics and related areas in Brazil, through Latent Dirichlet Allocation models. The main objective of the work is to infer the latent topics covered in these theses. First, the construction of a corpus of documents is discussed and presented, composed of the most recent theses from different Higher Education Institutions in Brazil, manually extracted from the web pages of each of the analyzed master’s programs. The inferential procedure adopted for the Latent Dirichlet Allocation model consists of Markov chain Monte Carlo methods and variational inference. Different methods for choosing the number of topics are also discussed, including information criteria such as Akaike, Bayesian, Deviance, Watanabe-Akaike, and metrics based on the coherence of the inferred latent topics. The adopted methodology provides an in-depth understanding of the predominant topics in this corpus.
Keywords: Modelagem de tópicos
Inferência variacional
Topic modeling
Variational inference
Subject CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
Program: Programa de Pós-Graduação em Estatística
Production unit: Instituto de Matemática
Publisher: Universidade Federal do Rio de Janeiro
Issue Date: 24-Feb-2025
Publisher country: Brasil
Language: por
Right access: Acesso Aberto
Appears in Collections:Estatística

Files in This Item:
File Description SizeFormat 
JPAOsorio.pdf885.46 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.