Please use this identifier to cite or link to this item:
http://hdl.handle.net/11422/14059
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | Xexéo, Geraldo Bonorino | - |
dc.contributor.author | Leite, Gabriel Matos Cardoso | - |
dc.date.accessioned | 2021-04-05T02:36:29Z | - |
dc.date.available | 2023-12-21T03:07:33Z | - |
dc.date.issued | 2019-08 | - |
dc.identifier.uri | http://hdl.handle.net/11422/14059 | - |
dc.description.abstract | Pattern classification on categorical and mixed data is a challenge to be surpassed. The increase in the amount of data being generated demands classifiers able to deal with different types of data. This work proposes algorithms for supervised classification on categorical and mixed data. Such algorithms are elaborated from integration between classifiers and ways of coding categorical features into continuous features. Mixed data is a set of observations with categorical features along with continuous features. Treating observations with categorical features properly allows the use of a huge number of databases containing categorical features. The approach proposed in order to handle categorical features and permit classification methods to be applied on such data, is a result of integration in pairs between the encodings Target Encoding (TE), One-hot, Naive and classifiers Neighbourhood Componente Analysis (NCA), Support Vector Machine (SVM), k-Nearest Neighbors (kNN). The behavior of the encodings chosen, and the performance of the presented algorithms are analyzed on synthetic databases and real databases, respectively. In order to evaluate the performance of the presented algorithms, an analysis was made on all results obtained. This analysis was made using crossvalidation techniques, k-fold and a test set with unseen observations. Moreover, inferential statistics techniques were used to identify evidences of differences among integrated algorithm’s accuracies on each dataset. The experimental planning proposed indicated that the integration built by NCA classifier and TE encoding (NCA+TE) turned up to be more competitive when compared to the other algorithms. | pt_BR |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal do Rio de Janeiro | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject | Classificação supervisionada | pt_BR |
dc.subject | Neighbourhood component analysis | pt_BR |
dc.subject | Dados categóricos | pt_BR |
dc.title | Algoritmos integrados para classificação de dados com atributos categóricos | pt_BR |
dc.title.alternative | Integrated classification algorithms for data with categorical features | pt_BR |
dc.type | Dissertação | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/4783565791787812 | pt_BR |
dc.contributor.authorLattes | http://lattes.cnpq.br/2163324531634254 | pt_BR |
dc.contributor.advisorCo1 | Pedreira, Carlos Eduardo | - |
dc.contributor.advisorCo1Lattes | http://lattes.cnpq.br/2718664296804955 | pt_BR |
dc.contributor.advisorCo2 | Marcelino, Carolina Gil | - |
dc.contributor.advisorCo2Lattes | http://lattes.cnpq.br/3289676418940953 | pt_BR |
dc.contributor.referee1 | França, Felipe Maia Galvão | - |
dc.contributor.referee2 | Wanner, Elizabeth Fialho | - |
dc.description.resumo | A classificação de padrões em dados categóricos e mistos apresenta um grande desafio a ser alcançado. O aumento na quantidade de dados gerados por diversas fontes requer classificadores que sejam capazes de lidar com diferentes tipos de dados. Este trabalho propõe a partir da integração de classificadores e formas de codificar atributos, uma nova abordagem para classificar dados. Por dados mistos entende-se conjunto de dados cujas observações são compostas por atributos contínuos e categóricos. O tratamento adequado de observações com atributos categóricos viabiliza, em classificações de padrões, a utilização de uma grande quantidade de bases. A abordagem proposta para tratar atributos categóricos e assim, viabilizar a aplicação de métodos de classificação de padrões, é resultante da integração em pares entre as codificações Target Encoding (TE), One-hot, Naive e os classificadores Neighbourhood Componente Analysis (NCA), Support Vector Machine (SVM), k-Nearest Neighbors (kNN). Analisa-se o comportamento das codificações em bases de dados sintéticas e o desempenho dos algoritmos em bases de dados reais. A metodologia aplicada utilizou técnicas de validação cruzada, k-fold e um conjunto de teste com observações não vistas durante o treinamento. Técnicas de inferência estatística foram utilizadas a fim de identificar indícios de diferença entre os resultados da acurácia obtida pelos algoritmos integrados em cada conjunto de dados. O planejamento experimental realizado indicou que a integração formada pelo classificador NCA e a codificação TE (NCA+TE) se mostrou mais competitiva entre os demais. | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia | pt_BR |
dc.publisher.program | Programa de Pós-Graduação em Engenharia de Sistemas e Computação | pt_BR |
dc.publisher.initials | UFRJ | pt_BR |
dc.subject.cnpq | CNPQ::ENGENHARIAS | pt_BR |
dc.embargo.terms | aberto | pt_BR |
Appears in Collections: | Engenharia de Sistemas e Computação |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
GabrielMatosCardosoLeite.pdf | 1.02 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.