Please use this identifier to cite or link to this item: http://hdl.handle.net/11422/14051
Type: Dissertação
Title: Detecção de plágio de paráfrase utilizando as características do texto
Other Titles: Paraphrase plagiarism detection through text features
Author(s)/Inventor(s): Silva, Egberto Caetano Araujo da
Advisor: Xexéo, Geraldo Bonorino
Abstract: [PT] Plágio é a adoção inapropriada de artefatos abstrato ou concreto tais como: textos, obras de arte, ideias ou intenções; sem fazer a devida referência ao seu autor original. Dentre as formas de cometer plágio, existe o plágio de paráfrase, o qual dá-se por meio de manipulações no texto do documento na tentativa de ofuscar a sua real origem. Para a identificação de plágio, é utilizado o framework Sistema de Detecção de Plágio Externo (SDPE), o qual contém a tarefa de análise detalhada, onde, dado um documento suspeito, deve identificar se há plágio ou não quando comparado com o conjunto de documentos fontes. O objetivo da pesquisa é atuar na tarefa de análise detalhada , a fim de, com as características léxica, sintática, semântica e estrutural do texto, auxiliar na identificação de plágio de paráfrase entre os documentos. Para isso, acredita-se que, quando o documento é representado por completo, levando em consideração a sua organização, as estruturas em árvores contribuem para identificação de ocorrência de plágio de paráfrase do tipo mais simples ao tipo mais complexo. Para essa tarefa, foi proposto utilizar o Rhetorical Structure Theory e o Part-of-Speech Tagging para representar as características do documento juntamente com o Recursive Autoencoder e o Dynamic Pooling detectar casos de plágio de paráfrase em documentos. Durante os experimentos, as abordagens propostas obtiveram entre 83% e 89% de acurácia no data set de plágio de paráfrase em documentos.
Abstract: [EN] Plagiarism is the improper adoption of abstract or concrete artifacts such as: texts, artwork, ideas or intentions without proper reference to their original author. The ways to commit plagiarism, there is paraphrase plagiarism, which occurs through manipulations in the document text trying to obscure its real source. For the identification of plagiarism, we use the External Plagiarism Detection System (EPDS) framework, which contains the detailed analysis task, where, given a suspicious document, it should identify whether or not plagiarism when compared to the set of document source. The objective of the research is to perform the detailed analysis task in order to, with the lexical, syntactic, semantic and structural characteristics of the text, assist in the identification of paraphrase plagiarism between documents. For this, it is believed that when the document is fully represented, taking into consideration its organization, tree structures contribute to the identification of paraphrase plagiarism from the simplest to the most complex type. For this task, it was proposed to use Rhetorical Structure Theory and Part-of-Speech Tagging to represent document characteristics along with Recursive Autoencoder and Dynamic Pooling to detect cases of paraphrase plagiarism in documents. During the experiments, the proposed approaches obtained between 83% and 89% accuracy in the paraphrase plagiarism data set.
Keywords: Paráfrase
Características
Documento
RST
RAE
POSTagging
Subject CNPq: CNPQ::ENGENHARIAS
Program: Programa de Pós-Graduação em Engenharia de Sistemas e Computação
Production unit: Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
Publisher: Universidade Federal do Rio de Janeiro
Issue Date: Sep-2019
Publisher country: Brasil
Language: por
Right access: Acesso Aberto
Appears in Collections:Engenharia de Sistemas e Computação

Files in This Item:
File Description SizeFormat 
EgbertoCaetanoAraujoDaSilva.pdf2.29 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.