Amostragem para grandes volumes de dados: uma aplicação em redes complexas

Souza, Roberta Carneiro de

Please use this identifier to cite or link to this item: http://hdl.handle.net/11422/11622

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Ebecken, Nelson Francisco Favilla	-
dc.contributor.author	Souza, Roberta Carneiro de	-
dc.date.accessioned	2020-03-26T01:13:07Z	-
dc.date.available	2023-12-21T03:06:57Z	-
dc.date.issued	2018-06	-
dc.identifier.uri	http://hdl.handle.net/11422/11622	-
dc.description.abstract	The main objective of this work is to implement and to evaluate options of sampling plans of algorithms for calculation of betweenness centrality, a measure used to identify important and influential vertices in complex networks aiming to improve the quality of the estimates. For statistical evaluation of variability of the estimates, indicators used in sampling, but not yet in data mining in complex networks, will be proposed. The techniques used in combination to reach the objectives and propose a new algorithm were: sampling, clustering (or community detection) and parallel computing. The sampling feature has been widely used as a tool to reduce dimensionality in data mining problems to streamline processes and reduce costs with data storage. The techniques of grouping for the detection of communities have a high correlation with the measure to be estimated, the betweenness centrality. One of the factors used in choosing the methods used in the implementation of the algorithms was the possibility of using parallel or distributed computing. After the review of the literature and evaluation of the results of the experiments carried out, it is concluded that the proposed algorithm contributes to the state of the art of the use of sampling to estimate betweenness centrality in large complex networks, a challenge in the current scenario of big data, by adding several techniques that optimize the extraction of data knowledge. The proposed algorithm, in addition to improving the quality of the estimates, presented a reduction in the processing time while keeping the scalability.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal do Rio de Janeiro	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Engenharia civil	pt_BR
dc.subject	Amostragem	pt_BR
dc.subject	Redes complexas	pt_BR
dc.subject	Grafos	pt_BR
dc.subject	Mineração de dados	pt_BR
dc.subject	Centralidade de intermediação	pt_BR
dc.subject	Agrupamento	pt_BR
dc.title	Amostragem para grandes volumes de dados: uma aplicação em redes complexas	pt_BR
dc.type	Tese	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/5479016545300476	pt_BR
dc.contributor.referee1	Silva, Pedro Luis do Nascimento	-
dc.contributor.referee2	Lima, Beatriz de Souza Leite Pires de	-
dc.contributor.referee3	Guimarães, Solange	-
dc.description.resumo	Este trabalho tem como objetivo principal implementar e avaliar opções de planos amostrais de algoritmos para cálculo de centralidade de intermediação - uma medida utilizada para identificar vértices importantes e influentes - em redes complexas, visando melhorar a qualidade das estimativas. A avaliação estatística da qualidade dessas estimativas será feita através de indicadores propostos, já utilizados em amostragem mas não em mineração de dados em redes complexas. As t´técnicas utilizadas de forma combinada para atingir os objetivos e propor um novo algoritmo foram: amostragem, agrupamento (ou detecção de comunidades) e computação paralela. O recurso de amostragem vem sendo utilizado amplamente como ferramenta de redução de dimensionalidade em problemas de mineração de dados para agilizar processos e diminuir custos com armazenagem de dados. As t´técnicas de agrupamento para detecção de comunidades possuem alta correlação com a medida que se deseja estimar, a centralidade de intermediação. Um dos fatores considerados na escolha dos m´métodos empregados na implementação dos algoritmos foi a possibilidade de se utilizar computação paralela ou distribuída. Após revisão da literatura e avaliação dos resultados dos experimentos realizados, conclui-se que o algoritmo proposto pelo presente estudo contribui para o estado da arte da utilização de amostragem para estimar centralidade de intermediação em grandes redes complexas, um desafio no cenário atual de big data, ao agregar várias t´técnicas que otimizam a extração de conhecimento de dados. O algoritmo proposto, além de melhorar a qualidade das estimativas, apresentou redução no tempo de processamento mantendo a escalabilidade.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Engenharia Civil	pt_BR
dc.publisher.initials	UFRJ	pt_BR
dc.subject.cnpq	CNPQ::ENGENHARIAS::ENGENHARIA CIVIL	pt_BR
dc.embargo.terms	aberto	pt_BR
Appears in Collections:	Engenharia Civil

Files in This Item:

File	Description	Size	Format
886618.pdf		447.72 kB	Adobe PDF	View/Open

Show simple item record Recommend this item View Statistics

Pantheon Institutional repository