Please use this identifier to cite or link to this item: http://hdl.handle.net/11422/10158
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorXexéo, Geraldo Bonorino-
dc.contributor.authorDuarte, Fellipe Ribeiro-
dc.date.accessioned2019-10-18T16:48:53Z-
dc.date.available2023-12-21T03:01:43Z-
dc.date.issued2017-06-
dc.identifier.urihttp://hdl.handle.net/11422/10158-
dc.description.abstractHeuristic Retrieval task aims to retrieve a set of documents from which the external plagiarism detection identifies plagiarized pieces of text. In this context, we present Minmax Circular Sector Arcs algorithms that treats HR task as an approximate k-nearest neighbor search problem. Moreover, Minmax Circular Sector Arcs algorithms aim to retrieve the set of documents with greater amounts of plagiarized fragments, while reducing the amount of time to accomplish the HR task. Our theoretical framework is based on two aspects: (i) a triangular property to encode a range of sketches on a unique value; and (ii) a Circular Sector Arc property which enables (i) to be more accurate. Both properties were proposed for handling high-dimensional spaces, hashing them to a lower number of hash values. Our two Minmax Circular Sector Arcs methods, Minmax Circular Sector Arcs Lower Bound and Minmax Circular Sector Arcs Full Bound, achieved Recall levels slightly more imprecise than Minmaxwise hashing in exchange for a better Speedup in document indexing and query extraction and retrieval time in high-dimensional plagiarism related datasets.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal do Rio de Janeiropt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectEngenharia de Sistemas e Computaçãopt_BR
dc.subjectRecuperação da informaçãopt_BR
dc.subjectPlágiopt_BR
dc.titleIdentificando plágio externo com Locality-sensitive hashingpt_BR
dc.typeTesept_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/5263027569534311pt_BR
dc.contributor.referee1Lima, Alexandre de Assis Bento-
dc.contributor.referee2Ogasawara, Eduardo Soares-
dc.contributor.referee3Souza, Jano Moreira de-
dc.contributor.referee4Milidiu, Ruy Luiz-
dc.description.resumoA tarefa de recuperação heurística tem como objetivo resgatar um conjunto de documentos dos quais a identificação de plágio externo identifica de pedaços de texto plagiado. Neste contexto, o presente trabalho apresenta os algoritmos Minmax Circular Sector Arcs que lidam com a tarefa de recuperação heurística como um problema de busca aproximada dos vizinhos mais próximos. Ademais, os algoritmos Minmax Circular Sector Arcs têm como objetivo recuperar documentos com grande quantidade de fragmentos plagiados enquanto reduz a quantidade de tempo para realizar a tarefa recuperação heurística. O ferramental teórico proposto é baseado em dois aspectos: (i) uma propriedade triangular que codifica um conjunto de esbo¸cos em um valor único; e (ii) a propriedade baseada em Arcos de Setores Circulares que melhoram a precisão de (i). Ambas as propriedades foram propostas para lidar com espaços de alta dimensionalidade, representando-os em um número pequendo de valores de hash. Os dois métodos Minmax Circular Sector Arcs aqui propostos, alcunhados de Minmax Circular Sector Arcs Lower Bound e Minmax Circular Sector Arcs Full Bound alcançaram níveis de recall singelamente mais imprecisos que o método Minmaxwise em troca de uma aceleração durante a indexação de documentos e da redução do tempo de extração e busca de consultas em coleções de dados de plágio de alta dimensionalidade.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenhariapt_BR
dc.publisher.programPrograma de Pós-Graduação em Engenharia de Sistemas e Computaçãopt_BR
dc.publisher.initialsUFRJpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.embargo.termsabertopt_BR
Appears in Collections:Engenharia de Sistemas e Computação

Files in This Item:
File Description SizeFormat 
878037.pdf2.44 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.