Please use this identifier to cite or link to this item: http://hdl.handle.net/11422/21496
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorNobre, Flavio Fonseca-
dc.contributor.authorRodrigues, José Fernando dos Anjos.-
dc.date.accessioned2023-09-02T23:37:55Z-
dc.date.available2023-12-21T03:02:07Z-
dc.date.issued2020-12-
dc.identifier.urihttp://hdl.handle.net/11422/21496-
dc.description.abstractAIDS is a disease of worldwide importance, caused by the HIV-1 virus. Of the several existing subtypes, the most prevalent are the B and C subtypes. Although it has no cure, several drugs have been developed over time to reduce its spread in the body. For example, Maraviroque® administration requires determining that the virus has tropism by the CCR5 receptor. There are highly accurate phenotypic tests, but they are very expensive and not agile for use in clinical routine. As an alternative, artificial intelligence models were developed to determine tropism by observing the sequence of 35 amino acids from gp120 region V3 of the virus. The models face difficulties in classifying correctly non-R5 tropism virus. In this work, we evaluated automatic variable selection and data balancing steps for classifiers performance. We used the random forest algorithm to develop separately trained models with 1,622 sequences of subtype B and 560 sequences of subtype C. The models were compared with the already established geno2pheno and T-CUP 2.0 classifiers. For subtype B, the AUC of all models presented values close to 0.95 and presented performance parity with the established predictors. For subtype C, the models presented AUC variants, but with higher performance than the established classifiers. The models presented positions that, despite having little variability, proved to be particularly important for the model. It was concluded that data balancing did not bring improvements and the selection of variables is a desirable step, but it should be performed considering previous information obtained empirically.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal do Rio de Janeiropt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectAprendizado de máquinapt_BR
dc.subjectHIV-1pt_BR
dc.subjectPreparação de dadospt_BR
dc.titleAvaliação de parâmetros de dados para construção de modelo classificador de tropismo de HIV-1pt_BR
dc.typeDissertaçãopt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/8170764802147878pt_BR
dc.contributor.advisorCo1Raposo, Leticia Martins-
dc.contributor.referee1Criollo, Carlos Julio Tierra-
dc.contributor.referee2Cruz, Oswaldo Gonçalves-
dc.description.resumoA AIDS é uma doença de importância mundial, causada pelo vírus HIV-1. Dos vários subtipos existentes, os mais prevalentes são os subtipos B e C. Apesar de não ter cura, diversos medicamentos foram desenvolvidos ao longo do tempo para reduzir sua disseminação no organismo. Por exemplo, a administração de Maraviroque® exige determinar que o vírus possua tropismo pelo receptor CCR5. Existem testes fenotípicos altamente precisos, mas muito caros e pouco ágeis para uso na rotina clínica. Como alternativa, foram desenvolvidos modelos de inteligência artificial para determinar o tropismo ao observar a sequência de 35 aminoácidos da região V3 da gp120 do vírus. Os modelos enfrentam dificuldades em classificar corretamente vírus de tropismo não-R5. Neste trabalho, avaliamos etapas de seleção automática de variáveis e balanceamento de dados para o desempenho dos classificadores. Utilizou-se o algoritmo de random forest para desenvolver modelos treinados separadamente com 1.622 sequências do subtipo B e 560 sequências de subtipo C. Os modelos foram comparados com os classificadores geno2pheno e T-CUP 2.0, já estabelecidos. Para o subtipo B, a AUC de todos os modelos apresentou valores próximos a 0.95 e apresentaram paridade de desempenho com os preditores consagrados. Para o subtipo C, os modelos apresentaram AUC variantes, porém de desempenho superior aos classificadores consagrados. Os modelos apresentaram posições que, apesar de possuir pouca variabilidade, mostraram-se muito importantes para o modelo. Concluiu-se que o balanceamento de dados não trouxe melhoras e a seleção de variáveis é uma etapa desejável, porém deve ser realizada considerando informações anteriores obtidas empiricamente.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenhariapt_BR
dc.publisher.programPrograma de Pós-Graduação em Engenharia Biomédicapt_BR
dc.publisher.initialsUFRJpt_BR
dc.subject.cnpqEngenharia Biomédicapt_BR
dc.embargo.termsabertopt_BR
Appears in Collections:Engenharia Biomédica

Files in This Item:
File Description SizeFormat 
939622.pdf1.03 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.