Coleta e armazenamento de dados morfológicos na língua portuguesa

Vilela, Cristian Diamantaras; Cunha, Gabriel Rodrigues

Please use this identifier to cite or link to this item: http://hdl.handle.net/11422/23630

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Silva, João Carlos Pereira da	-
dc.contributor.author	Vilela, Cristian Diamantaras	-
dc.contributor.author	Cunha, Gabriel Rodrigues	-
dc.date.accessioned	2024-09-06T16:24:56Z	-
dc.date.available	2024-09-08T03:00:18Z	-
dc.date.issued	2024-08-07	-
dc.identifier.uri	http://hdl.handle.net/11422/23630	-
dc.language	por	pt_BR
dc.publisher	Universidade Federal do Rio de Janeiro	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Língua portuguesa	pt_BR
dc.subject	Morfologia	pt_BR
dc.subject	Natural language processing	pt_BR
dc.subject	Portuguese language	pt_BR
dc.subject	Morphology	pt_BR
dc.title	Coleta e armazenamento de dados morfológicos na língua portuguesa	pt_BR
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.contributor.advisorCo1	Garcia, Daniela Cid de	-
dc.contributor.referee1	Rossetto, Silvana	-
dc.contributor.referee2	Santos, Sabrina Lopes dos	-
dc.description.resumo	Este trabalho teve como objetivo criar um processo estruturado de coleta de informações morfológicas da língua portuguesa para um banco de dados com o intuito de facilitar análises e estudos sobre o tema. O processo desenvolvido é composto por três módulos independentes. O primeiro módulo é responsável pela geração de corpus, onde arquivos PDF ou de imagem são convertidos em arquivos de texto. O segundo módulo realiza o processamento desses textos, extraindo informações morfológicas e estruturando-as em um banco de dados. Por último, o terceiro módulo realiza análises sobre esses dados, respondendo perguntas específicas referentes a palavras, sufixos e classes gramaticais. Foram utilizados três corpora nesse processo: um de notícias do setor elétrico e dois de autoria própria, sendo o primeiro composto por livros infantis e o segundo por cordéis. Os resultados mostraram que a ferramenta criada gerou informações coerentes em relação as perguntas, o que pode ser corroborado pela Lei de Zipf, que define um comportamento comum em linguagens naturais, demonstrando que o processo desenvolvido é eficaz para a coleta e análise de informações morfológicas da língua portuguesa.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Instituto de Computação	pt_BR
dc.publisher.initials	UFRJ	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
dc.embargo.terms	aberto	pt_BR
Appears in Collections:	Ciência da Computação

Files in This Item:

File	Description	Size	Format
CDVilela.pdf		1.09 MB	Adobe PDF	View/Open

Show simple item record Recommend this item View Statistics

Pantheon Institutional repository