Please use this identifier to cite or link to this item:
http://hdl.handle.net/11422/23630
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | Silva, João Carlos Pereira da | - |
dc.contributor.author | Vilela, Cristian Diamantaras | - |
dc.contributor.author | Cunha, Gabriel Rodrigues | - |
dc.date.accessioned | 2024-09-06T16:24:56Z | - |
dc.date.available | 2024-09-08T03:00:18Z | - |
dc.date.issued | 2024-08-07 | - |
dc.identifier.uri | http://hdl.handle.net/11422/23630 | - |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal do Rio de Janeiro | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject | Processamento de linguagem natural | pt_BR |
dc.subject | Língua portuguesa | pt_BR |
dc.subject | Morfologia | pt_BR |
dc.subject | Natural language processing | pt_BR |
dc.subject | Portuguese language | pt_BR |
dc.subject | Morphology | pt_BR |
dc.title | Coleta e armazenamento de dados morfológicos na língua portuguesa | pt_BR |
dc.type | Trabalho de conclusão de graduação | pt_BR |
dc.contributor.advisorCo1 | Garcia, Daniela Cid de | - |
dc.contributor.referee1 | Rossetto, Silvana | - |
dc.contributor.referee2 | Santos, Sabrina Lopes dos | - |
dc.description.resumo | Este trabalho teve como objetivo criar um processo estruturado de coleta de informações morfológicas da língua portuguesa para um banco de dados com o intuito de facilitar análises e estudos sobre o tema. O processo desenvolvido é composto por três módulos independentes. O primeiro módulo é responsável pela geração de corpus, onde arquivos PDF ou de imagem são convertidos em arquivos de texto. O segundo módulo realiza o processamento desses textos, extraindo informações morfológicas e estruturando-as em um banco de dados. Por último, o terceiro módulo realiza análises sobre esses dados, respondendo perguntas específicas referentes a palavras, sufixos e classes gramaticais. Foram utilizados três corpora nesse processo: um de notícias do setor elétrico e dois de autoria própria, sendo o primeiro composto por livros infantis e o segundo por cordéis. Os resultados mostraram que a ferramenta criada gerou informações coerentes em relação as perguntas, o que pode ser corroborado pela Lei de Zipf, que define um comportamento comum em linguagens naturais, demonstrando que o processo desenvolvido é eficaz para a coleta e análise de informações morfológicas da língua portuguesa. | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Instituto de Computação | pt_BR |
dc.publisher.initials | UFRJ | pt_BR |
dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | pt_BR |
dc.embargo.terms | aberto | pt_BR |
Appears in Collections: | Ciência da Computação |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
CDVilela.pdf | 1.09 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.