Estratégias de paralelização para o algoritmo Feature Space Partition

Almeida, Saulo Andrade

Please use this identifier to cite or link to this item:


			http://hdl.handle.net/11422/29060

Type:	Dissertação
Title:	Estratégias de paralelização para o algoritmo Feature Space Partition
Author(s)/Inventor(s):	Almeida, Saulo Andrade
Advisor:	Rossetto, Silvana
Co-advisor:	Marcelino, Carolina Gil
Abstract:	Essa dissertação apresenta o trabalho de paralelização do algoritmo de aprendizado supervisionado Feature Space Partition (FSP), originalmente implementado de forma sequencial na linguagem Python. Apesar do FSP se mostrar eficiente em datasets pequenos, tem apresentado um tempo de execução alto quando utilizado em conjuntos de dados maiores. O processo de paralelização investiga mais de uma abordagem de paralelização, incluindo programação paralela em CPU e GPU, mantendo a sequência de etapas original da versão sequencial do algoritmo, a fim de avaliar qual a estratégia mais adequada para paralelização do mesmo, mas sem que haja perda da sua acurácia. Uma das premissas do projeto é a de tentar utilizar recursos e bibliotecas de paralelização já existentes no vasto e heterogêneo ambiente da linguagem Python. Ao final do experimento, o melhor cenário executado foi o da paralelização em CPU, que apresentou uma melhora de 36.44% de desempenho, se comparado com a sua implementação inicial, mas sem impactar a sua acurácia.
Abstract:	This dissertation presents the parallelization of the supervised learning algorithm Feature Space Partition (FSP), originally implemented sequentially in the Python language. Although FSP has proven to be efficient in small datasets, it has presented a high execution time when used in largers amount of data. The parallelization process investigates more than one parallelization approach, including parallel programming on CPU and GPU, maintaining the original sequence of steps of the sequential version of the algorithm, in order to evaluate which is the most appropriate strategy for paralleli- zation, but without losing its accuracy. One of the premises of the project is to try to use parallelization resources and libraries already existing in the vast and heterogeneous environment of the Python language. At the end of the experiment, the best scenario exe- cuted was the multiprocess CPU parallelization, which presented a 36.44% improvement in performance, when compared to its initial implementation, without decreasing its accuracy.
Keywords:	Algoritmo Aprendizado de máquina Computação paralela Algorithms Machine learning Parallel computing Feature Space Partition
Subject CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Program:	Programa de Pós-Graduação em Informática
Production unit:	Instituto de Computação
Publisher:	Universidade Federal do Rio de Janeiro
Issue Date:	31-Mar-2025
Publisher country:	Brasil
Language:	por
Right access:	Acesso Aberto
Appears in Collections:	Informática

Files in This Item:

File	Description	Size	Format
958492.pdf		591.58 kB	Adobe PDF	View/Open

Show full item record Recommend this item View Statistics

Pantheon Institutional repository