Please use this identifier to cite or link to this item: http://hdl.handle.net/11422/14064
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorSilva, Geraldo Zimbrão da-
dc.contributor.authorAraujo, Adriano Gomes Sabino de-
dc.date.accessioned2021-04-05T02:39:41Z-
dc.date.available2023-12-21T03:07:36Z-
dc.date.issued2019-08-
dc.identifier.urihttp://hdl.handle.net/11422/14064-
dc.description.abstractReducing the number of dimensions of a problem allows not only to reduce the processing time of the used learning technique but also to improve its performance. Feature Selection and Feature Clustering are two important ways to accomplish such a reduction. The first one is the search for the ideal feature set to solve a problem, that is, the one that makes it possible to reach the best result when using a predictor. The second one is intended to group dimensions in order to use the clusters to generate the new problem input set. This work introduces a genetic algorithm for feature selection and differs from others in the following aspects: (1) individual mutation rate per bit and proportional to the Pearson correlation coefficient and (2) initial population generation based on the same coefficient. In addition, it presents a feature clustering algorithm that, unlike other works in the literature, merge more dissimilar dimensions. Experiments were performed with both algorithms and the results obtained were promising. Individually performed well and, when performed one after another, resulted in better performances. The experiments were carried out on different databases, highlighting as main the text classification database Reuters 21,578. The best result was with Precision (P) of 0.9890, Recall (R) of 0.9815 and F1 of 0.9852. On Reuters, the result was compared with three other papers and was superior to the best of them ([UĞUZ, 2011]).pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal do Rio de Janeiropt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectSeleção de característicaspt_BR
dc.subjectAgrupamento de característicaspt_BR
dc.subjectAlgoritmos genéticospt_BR
dc.subjectCoeficiente de correlação de Pearsonpt_BR
dc.titleSeleção de características genética com mutação individual por bit baseada em Pearson e clusterização de variáveis utilizando medidas de dissimilaridadept_BR
dc.title.alternativeGenetic feature selection with Pearson individual mutation rate and feature clustering based on dissimilarity measurespt_BR
dc.typeTesept_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/3937502490683382pt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/1408411365369261pt_BR
dc.contributor.referee1Milidiú, Ruy Luiz-
dc.contributor.referee2Alvim, Leandro Guimarães Marques-
dc.contributor.referee3Xexéo, Geraldo Bonorino-
dc.contributor.referee4Calôba, Luiz Pereira-
dc.description.resumoReduzir a quantidade de dimensões de um problema possibilita não só reduzir o tempo de processamento da técnica de aprendizado utilizada como também melhorar o desempenho da mesma. Seleção de Características e Agrupamento de Variáveis são duas importantes formas de realizar tal redução. A primeira consiste na busca do conjunto ideal de características para solucionar determinado problema, ou seja, aquele que possibilita alcançar o melhor resultado quando utilizando um preditor. A segunda tem como intuito agrupar dimensões a fim de usar os agrupamentos para gerar o novo conjunto de entrada do problema. Este trabalho introduz um algoritmo genético para seleção de características que se diferencia de outros nos seguintes aspectos: (1) pela taxa de mutação individual por bit e proporcional ao coeficiente de correlação de Pearson e (2) pela geração da população inicial baseada no mesmo coeficiente. Além disso, apresenta um algoritmo de agrupamento de características que, diferente de outros trabalhos da literatura, uni dimensões mais dissimilares quanto possível. Experimentos foram executados com ambos os algoritmos e os resultados obtidos foram promissores. Executados individualmente tiveram bons resultados e, quando executados um após o outro, resultaram em melhores desempenhos. Os experimentos foram realizados sobre diferentes bases de dados, destacando-se como principal a base de classificação de textos Reuters 21.578. O melhor resultado obtido em tal base foi com Precision (P) de 0,9890, Recall (R) de 0,9815 e F1 de 0,9852. O mesmo foi comparado com três outros trabalhos e foi superior ao melhor deles ([UĞUZ, 2011]).pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenhariapt_BR
dc.publisher.programPrograma de Pós-Graduação em Engenharia de Sistemas e Computaçãopt_BR
dc.publisher.initialsUFRJpt_BR
dc.subject.cnpqCNPQ::ENGENHARIASpt_BR
dc.embargo.termsabertopt_BR
Appears in Collections:Engenharia de Sistemas e Computação

Files in This Item:
File Description SizeFormat 
AdrianoGomesSabinoDeAraujo.pdf1.26 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.