Please use this identifier to cite or link to this item:
http://hdl.handle.net/11422/21496
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | Nobre, Flavio Fonseca | - |
dc.contributor.author | Rodrigues, José Fernando dos Anjos. | - |
dc.date.accessioned | 2023-09-02T23:37:55Z | - |
dc.date.available | 2023-12-21T03:02:07Z | - |
dc.date.issued | 2020-12 | - |
dc.identifier.uri | http://hdl.handle.net/11422/21496 | - |
dc.description.abstract | AIDS is a disease of worldwide importance, caused by the HIV-1 virus. Of the several existing subtypes, the most prevalent are the B and C subtypes. Although it has no cure, several drugs have been developed over time to reduce its spread in the body. For example, Maraviroque® administration requires determining that the virus has tropism by the CCR5 receptor. There are highly accurate phenotypic tests, but they are very expensive and not agile for use in clinical routine. As an alternative, artificial intelligence models were developed to determine tropism by observing the sequence of 35 amino acids from gp120 region V3 of the virus. The models face difficulties in classifying correctly non-R5 tropism virus. In this work, we evaluated automatic variable selection and data balancing steps for classifiers performance. We used the random forest algorithm to develop separately trained models with 1,622 sequences of subtype B and 560 sequences of subtype C. The models were compared with the already established geno2pheno and T-CUP 2.0 classifiers. For subtype B, the AUC of all models presented values close to 0.95 and presented performance parity with the established predictors. For subtype C, the models presented AUC variants, but with higher performance than the established classifiers. The models presented positions that, despite having little variability, proved to be particularly important for the model. It was concluded that data balancing did not bring improvements and the selection of variables is a desirable step, but it should be performed considering previous information obtained empirically. | pt_BR |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal do Rio de Janeiro | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject | Aprendizado de máquina | pt_BR |
dc.subject | HIV-1 | pt_BR |
dc.subject | Preparação de dados | pt_BR |
dc.title | Avaliação de parâmetros de dados para construção de modelo classificador de tropismo de HIV-1 | pt_BR |
dc.type | Dissertação | pt_BR |
dc.contributor.authorLattes | http://lattes.cnpq.br/8170764802147878 | pt_BR |
dc.contributor.advisorCo1 | Raposo, Leticia Martins | - |
dc.contributor.referee1 | Criollo, Carlos Julio Tierra | - |
dc.contributor.referee2 | Cruz, Oswaldo Gonçalves | - |
dc.description.resumo | A AIDS é uma doença de importância mundial, causada pelo vírus HIV-1. Dos vários subtipos existentes, os mais prevalentes são os subtipos B e C. Apesar de não ter cura, diversos medicamentos foram desenvolvidos ao longo do tempo para reduzir sua disseminação no organismo. Por exemplo, a administração de Maraviroque® exige determinar que o vírus possua tropismo pelo receptor CCR5. Existem testes fenotípicos altamente precisos, mas muito caros e pouco ágeis para uso na rotina clínica. Como alternativa, foram desenvolvidos modelos de inteligência artificial para determinar o tropismo ao observar a sequência de 35 aminoácidos da região V3 da gp120 do vírus. Os modelos enfrentam dificuldades em classificar corretamente vírus de tropismo não-R5. Neste trabalho, avaliamos etapas de seleção automática de variáveis e balanceamento de dados para o desempenho dos classificadores. Utilizou-se o algoritmo de random forest para desenvolver modelos treinados separadamente com 1.622 sequências do subtipo B e 560 sequências de subtipo C. Os modelos foram comparados com os classificadores geno2pheno e T-CUP 2.0, já estabelecidos. Para o subtipo B, a AUC de todos os modelos apresentou valores próximos a 0.95 e apresentaram paridade de desempenho com os preditores consagrados. Para o subtipo C, os modelos apresentaram AUC variantes, porém de desempenho superior aos classificadores consagrados. Os modelos apresentaram posições que, apesar de possuir pouca variabilidade, mostraram-se muito importantes para o modelo. Concluiu-se que o balanceamento de dados não trouxe melhoras e a seleção de variáveis é uma etapa desejável, porém deve ser realizada considerando informações anteriores obtidas empiricamente. | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia | pt_BR |
dc.publisher.program | Programa de Pós-Graduação em Engenharia Biomédica | pt_BR |
dc.publisher.initials | UFRJ | pt_BR |
dc.subject.cnpq | Engenharia Biomédica | pt_BR |
dc.embargo.terms | aberto | pt_BR |
Appears in Collections: | Engenharia Biomédica |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
939622.pdf | 1.03 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.