Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11422/14051
Especie: Dissertação
Título : Detecção de plágio de paráfrase utilizando as características do texto
Otros títulos: Paraphrase plagiarism detection through text features
Autor(es)/Inventor(es): Silva, Egberto Caetano Araujo da
Tutor: Xexéo, Geraldo Bonorino
Resumen: [PT] Plágio é a adoção inapropriada de artefatos abstrato ou concreto tais como: textos, obras de arte, ideias ou intenções; sem fazer a devida referência ao seu autor original. Dentre as formas de cometer plágio, existe o plágio de paráfrase, o qual dá-se por meio de manipulações no texto do documento na tentativa de ofuscar a sua real origem. Para a identificação de plágio, é utilizado o framework Sistema de Detecção de Plágio Externo (SDPE), o qual contém a tarefa de análise detalhada, onde, dado um documento suspeito, deve identificar se há plágio ou não quando comparado com o conjunto de documentos fontes. O objetivo da pesquisa é atuar na tarefa de análise detalhada , a fim de, com as características léxica, sintática, semântica e estrutural do texto, auxiliar na identificação de plágio de paráfrase entre os documentos. Para isso, acredita-se que, quando o documento é representado por completo, levando em consideração a sua organização, as estruturas em árvores contribuem para identificação de ocorrência de plágio de paráfrase do tipo mais simples ao tipo mais complexo. Para essa tarefa, foi proposto utilizar o Rhetorical Structure Theory e o Part-of-Speech Tagging para representar as características do documento juntamente com o Recursive Autoencoder e o Dynamic Pooling detectar casos de plágio de paráfrase em documentos. Durante os experimentos, as abordagens propostas obtiveram entre 83% e 89% de acurácia no data set de plágio de paráfrase em documentos.
Resumen: [EN] Plagiarism is the improper adoption of abstract or concrete artifacts such as: texts, artwork, ideas or intentions without proper reference to their original author. The ways to commit plagiarism, there is paraphrase plagiarism, which occurs through manipulations in the document text trying to obscure its real source. For the identification of plagiarism, we use the External Plagiarism Detection System (EPDS) framework, which contains the detailed analysis task, where, given a suspicious document, it should identify whether or not plagiarism when compared to the set of document source. The objective of the research is to perform the detailed analysis task in order to, with the lexical, syntactic, semantic and structural characteristics of the text, assist in the identification of paraphrase plagiarism between documents. For this, it is believed that when the document is fully represented, taking into consideration its organization, tree structures contribute to the identification of paraphrase plagiarism from the simplest to the most complex type. For this task, it was proposed to use Rhetorical Structure Theory and Part-of-Speech Tagging to represent document characteristics along with Recursive Autoencoder and Dynamic Pooling to detect cases of paraphrase plagiarism in documents. During the experiments, the proposed approaches obtained between 83% and 89% accuracy in the paraphrase plagiarism data set.
Materia: Paráfrase
Características
Documento
RST
RAE
POSTagging
Materia CNPq: CNPQ::ENGENHARIAS
Programa: Programa de Pós-Graduação em Engenharia de Sistemas e Computação
Unidade de producción: Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
Editor: Universidade Federal do Rio de Janeiro
Fecha de publicación: sep-2019
País de edición : Brasil
Idioma de publicación: por
Tipo de acceso : Acesso Aberto
Aparece en las colecciones: Engenharia de Sistemas e Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
EgbertoCaetanoAraujoDaSilva.pdf2.29 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.