Avaliação de parâmetros de dados para construção de modelo classificador de tropismo de HIV-1

Rodrigues, José Fernando dos Anjos.

Please use this identifier to cite or link to this item: http://hdl.handle.net/11422/21496

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Nobre, Flavio Fonseca	-
dc.contributor.author	Rodrigues, José Fernando dos Anjos.	-
dc.date.accessioned	2023-09-02T23:37:55Z	-
dc.date.available	2023-12-21T03:02:07Z	-
dc.date.issued	2020-12	-
dc.identifier.uri	http://hdl.handle.net/11422/21496	-
dc.description.abstract	AIDS is a disease of worldwide importance, caused by the HIV-1 virus. Of the several existing subtypes, the most prevalent are the B and C subtypes. Although it has no cure, several drugs have been developed over time to reduce its spread in the body. For example, Maraviroque® administration requires determining that the virus has tropism by the CCR5 receptor. There are highly accurate phenotypic tests, but they are very expensive and not agile for use in clinical routine. As an alternative, artificial intelligence models were developed to determine tropism by observing the sequence of 35 amino acids from gp120 region V3 of the virus. The models face difficulties in classifying correctly non-R5 tropism virus. In this work, we evaluated automatic variable selection and data balancing steps for classifiers performance. We used the random forest algorithm to develop separately trained models with 1,622 sequences of subtype B and 560 sequences of subtype C. The models were compared with the already established geno2pheno and T-CUP 2.0 classifiers. For subtype B, the AUC of all models presented values close to 0.95 and presented performance parity with the established predictors. For subtype C, the models presented AUC variants, but with higher performance than the established classifiers. The models presented positions that, despite having little variability, proved to be particularly important for the model. It was concluded that data balancing did not bring improvements and the selection of variables is a desirable step, but it should be performed considering previous information obtained empirically.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal do Rio de Janeiro	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	HIV-1	pt_BR
dc.subject	Preparação de dados	pt_BR
dc.title	Avaliação de parâmetros de dados para construção de modelo classificador de tropismo de HIV-1	pt_BR
dc.type	Dissertação	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/8170764802147878	pt_BR
dc.contributor.advisorCo1	Raposo, Leticia Martins	-
dc.contributor.referee1	Criollo, Carlos Julio Tierra	-
dc.contributor.referee2	Cruz, Oswaldo Gonçalves	-
dc.description.resumo	A AIDS é uma doença de importância mundial, causada pelo vírus HIV-1. Dos vários subtipos existentes, os mais prevalentes são os subtipos B e C. Apesar de não ter cura, diversos medicamentos foram desenvolvidos ao longo do tempo para reduzir sua disseminação no organismo. Por exemplo, a administração de Maraviroque® exige determinar que o vírus possua tropismo pelo receptor CCR5. Existem testes fenotípicos altamente precisos, mas muito caros e pouco ágeis para uso na rotina clínica. Como alternativa, foram desenvolvidos modelos de inteligência artificial para determinar o tropismo ao observar a sequência de 35 aminoácidos da região V3 da gp120 do vírus. Os modelos enfrentam dificuldades em classificar corretamente vírus de tropismo não-R5. Neste trabalho, avaliamos etapas de seleção automática de variáveis e balanceamento de dados para o desempenho dos classificadores. Utilizou-se o algoritmo de random forest para desenvolver modelos treinados separadamente com 1.622 sequências do subtipo B e 560 sequências de subtipo C. Os modelos foram comparados com os classificadores geno2pheno e T-CUP 2.0, já estabelecidos. Para o subtipo B, a AUC de todos os modelos apresentou valores próximos a 0.95 e apresentaram paridade de desempenho com os preditores consagrados. Para o subtipo C, os modelos apresentaram AUC variantes, porém de desempenho superior aos classificadores consagrados. Os modelos apresentaram posições que, apesar de possuir pouca variabilidade, mostraram-se muito importantes para o modelo. Concluiu-se que o balanceamento de dados não trouxe melhoras e a seleção de variáveis é uma etapa desejável, porém deve ser realizada considerando informações anteriores obtidas empiricamente.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Engenharia Biomédica	pt_BR
dc.publisher.initials	UFRJ	pt_BR
dc.subject.cnpq	Engenharia Biomédica	pt_BR
dc.embargo.terms	aberto	pt_BR
Appears in Collections:	Engenharia Biomédica

Files in This Item:

File	Description	Size	Format
939622.pdf		1.03 MB	Adobe PDF	View/Open

Show simple item record Recommend this item View Statistics

Pantheon Institutional repository