AMANDA : density-based adaptive model for nonstationary data under extreme verification latency scenarios

Ferreira, Raul Sena

Pantheon Repositorio Institucional

Recopila, preserva y difundi la producción académica digital en todas las áreas del conocimiento.
Comprende los activos del repositorio, además de tesis y disertaciones en la UFRJ, artículos científicos, libros electrónicos, capítulos de libros y trabajos presentados en eventos para los profesores, investigadores, personal administrativo y estudiantes de maestría y doctorado.

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11422/12982

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Silva, Geraldo Zimbrão da	-
dc.contributor.author	Ferreira, Raul Sena	-
dc.date.accessioned	2020-08-25T14:25:05Z	-
dc.date.available	2023-12-21T03:02:14Z	-
dc.date.issued	2018-06	-
dc.identifier.uri	http://hdl.handle.net/11422/12982	-
dc.description.abstract	Gradual concept-drift refers to a smooth and gradual change in the relations between input and output data in the underlying distribution over time. The problem generates a model obsolescence and consequently a quality decrease in predictions. Besides, there is a challenging task during the stream: The extreme verification latency (EVL) to verify the labels. For batch scenarios, state-of-the-art methods propose an adaptation of a supervised model by using an unconstrained least squares importance fitting (uLSIF) algorithm or a semi-supervised approach along with a core support extraction (CSE) method. However, these methods do not properly tackle the mentioned problems due to their high computational time for large data volumes, lack in representing the right samples of the drift or even for having several parameters for tuning. Therefore, we propose a density-based adaptive model for nonstationary data (AMANDA), which uses a semi-supervised classifier along with a CSE method. AMANDA has two variations: AMANDA with a fixed cutting percentage (AMANDA-FCP); and AMANDA with a dynamic cutting percentage (AMANDADCP). Our results indicate that the two variations of AMANDA outperform the state-of-the-art methods for almost all synthetic datasets and real ones with an improvement up to 27.98% regarding the average error. We have found that the use of AMANDA-FCP improved the results for a gradual concept-drift even with a small size of initial labeled data. Moreover, our results indicate that SSL classifiers are improved when they work along with our static or dynamic CSE methods. Therefore, we emphasize the importance of research directions based on this approach.	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Federal do Rio de Janeiro	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Aprendizagem semi-supervisionada	pt_BR
dc.subject	Deriva do conceito	pt_BR
dc.title	AMANDA : density-based adaptive model for nonstationary data under extreme verification latency scenarios	pt_BR
dc.type	Dissertação	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/3937502490683382	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/7007150957758256	pt_BR
dc.contributor.advisorCo1	Alvim, Leandro Guimarães Marques	-
dc.contributor.referee1	Lima, Alexandre de Assis Bento	-
dc.contributor.referee2	Ogasawara, Eduardo Soares	-
dc.description.resumo	Concept-drift gradual refere-se à mudança suave e gradual na distribuição dos dados conforme o tempo passa. Este problema causa obsolescência no modelo de aprendizado e queda na qualidade das previsões. Além disso, existe um complicador durante o processamento dos dados: a latência de verificação extrema (LVE) para se verificar os rótulos. Métodos do estado da arte propõem uma adaptação do modelo supervisionado usando uma abordagem de estimação de importância baseado em mínimos quadrados ou usando uma abordagem semi-supervisionada em conjunto com a extração de instâncias centrais, na sigla em inglês (CSE). Entretanto, estes métodos não tratam adequadamente os problemas mencionados devido ao fato de requererem alto tempo computacional para processar grandes volumes de dados, falta de correta seleção das instâncias que representam a mudança da distribuição, ou ainda por demandarem o ajuste de grande quantidade de parâmetros. Portanto, propomos um modelo adaptativo baseado em densidades para dados não-estacionários (AMANDA), que tem como base um classificador semi-supervisionado e um método CSE baseado em densidade. AMANDA tem duas variações: percentual de corte fixo (AMANDAFCP); e percentual de corte dinâmico (AMANDA-DCP). Nossos resultados indicam que as duas variações da proposta superam o estado da arte em quase todas as bases de dados sintéticas e reais em até 27,98% em relação ao erro médio. Concluímos que a aplicação do método AMANDA-FCP faz com que a classificação melhore mesmo quando há uma pequena porção inicial de dados rotulados. Mais ainda, os classificadores semi-supervisionados são melhorados quando trabalham em conjunto com nossos métodos de CSE, estático ou dinâmico.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Engenharia de Sistemas e Computação	pt_BR
dc.publisher.initials	UFRJ	pt_BR
dc.subject.cnpq	CNPQ::ENGENHARIAS	pt_BR
dc.embargo.terms	aberto	pt_BR
Aparece en las colecciones:	Engenharia de Sistemas e Computação

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
RaulSenaFerreira.pdf		3.58 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem Recomiende este ítem View Statistics