Please use this identifier to cite or link to this item: http://hdl.handle.net/11422/13142
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorZaverucha, Gerson-
dc.contributor.authorPassos, Guilherme Paulino-
dc.date.accessioned2020-10-02T22:02:34Z-
dc.date.available2023-12-21T03:02:20Z-
dc.date.issued2018-08-
dc.identifier.urihttp://hdl.handle.net/11422/13142-
dc.description.abstractLinguistically annotated data are currently crucial resources for natural language processing (NLP). They are necessary for both evaluation and as input to training machine learning models of language. However, producing new datasets is a very time and labor-consuming. Usually some expertise in linguistics is required for annotators, and even so the annotation decision problem is far from trivial. This difficulty grows in scale: in projects with many annotators or spanning a long period of time, annotation consistency can be compromised. Furthermore, annotating data from specific domain requires annotators with corresponding knowledge. This is a serious problem for technical domains such as biomedical sciences, oil & gas and law. In this work, we contribute to solving the problem of producing syntactically annotated texts (treebanks) by formal methods. We develop a formal specification of the syntactic annotation standard Universal Dependencies, a project developed by the NLP community around the world which is growing in importance. We argue that this formal specification is useful for improving the quality of treebanks and reducing annotation costs, by enforcing consistency in the data. We discuss the features, design choices and limitations of our ontology, implemented in the OWL2- DL language. We evaluate experimentally the usefulness of our ontology in a task of automatically detecting wrong analysis, showing high precision in four languages. Finally, we contextualize our contribution by surveying state-of-the-art methods for developing and maintaining treebanks.en
dc.languageengpt_BR
dc.publisherUniversidade Federal do Rio de Janeiropt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectNatural language processingpt_BR
dc.subjectSyntactic parsingpt_BR
dc.subjectKnowledge representationpt_BR
dc.titleA formal specification for syntactic annotation and its usage in corpus development and maintenance: a case study in universal dependenciesen
dc.title.alternativeUma especificação formal para anotação sintática e seu uso no desenvolvimento e na manutenção de corpora: um estudo de caso em dependências universaispt_BR
dc.typeDissertaçãopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/5117568495536090pt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/0858725098195825pt_BR
dc.contributor.advisorCo1Rademaker, Alexandre-
dc.contributor.advisorCo1Latteshttp://lattes.cnpq.br/0675365413696898pt_BR
dc.contributor.referee1Benevides, Mário Roberto Folhadela-
dc.contributor.referee2Finger, Marcelo-
dc.description.resumoDados anotados linguisticamente são atualmente um recurso crucial para processamento de linguagem natural (NLP). Tais dados são necessários tanto para avaliação empírica de sistemas, quanto para o treinamento de modelos de aprendizado de máquina de linguagem. Contudo, produzir novos conjuntos de dados é muito custoso em tempo e trabalho humano. Usualmente algum domínio em linguística é necessário aos anotadores, e ainda assim a decisão de como anotar não é trivial. Em projetos com muitos anotadores ou abrangendo longos períodos de tempo, a consistência da anotação pode ser comprometida. Ademais, anotar dados de domínios específicos requer anotadores com conhecimentos correspondentes. Isso se torna um sério problema para domínios técnicos como ciências biomédicas, óleo e gás e direito. Neste trabalho, contribuímos para diminuir esta dificuldade na produção de textos com anotação sintática (treebanks) por métodos formais. Nós desenvolvemos uma especificação formal do padrão de anotação sintático Dependências Universais (Universal Dependencies), um projeto desenvolvido pela comunidade internacional de NLP e de crescente importância. Sustentamos que essa especificação formal é útil para melhorar a qualidade de treebanks e reduzir custos de anotação, pela imposição de consistência nos dados. Discutimos as características, decisões de projeto e limitações da nossa ontologia, implementada na linguagem OWL2-DL. Avaliamos experimentalmente a utilidade de nossa ontologia na tarefa de detectar análises incorretas automaticamente, mostrando alta precisão em quatro idiomas. Finalmente, contextualizamos nossa contribuição revisando o estado da arte no desenvolvimento e manutenção de treebanks.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenhariapt_BR
dc.publisher.programPrograma de Pós-Graduação em Engenharia de Sistemas e Computaçãopt_BR
dc.publisher.initialsUFRJpt_BR
dc.subject.cnpqCNPQ::ENGENHARIASpt_BR
dc.embargo.termsabertopt_BR
Appears in Collections:Engenharia de Sistemas e Computação

Files in This Item:
File Description SizeFormat 
GuilhermePaulinoPassos.pdf1.24 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.