Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11422/13594
Especie: Trabalho de conclusão de graduação
Título : ETL4PROFILING: extending ETL4LOD to analyze datasets completeness – a DBpedia case study
Autor(es)/Inventor(es): Pacheco, Ingrid Quintanilha
Tutor: Campos, Maria Luiza Machado
Resumen: À medida que a quantidade de dados no mundo cresce, é importante mantê-los acessíveis e usáveis, ao mesmo tempo que corretos e confiáveis. Além disso, o princípio R1 (Reuse)1 da FAIR argumenta que é mais fácil encontrar e reusar dados se eles tiverem muitos rótulos atrelados a eles, considerando que ter uma boa qualidade de dados é essencial para qualquer repositório quando se trata de apoiar a sua abertura e reuso. Desta forma, o presente estudo tem a intenção de analisar as atuais condições de diversos conjuntos de dados, com um foco especial para a DBpedia, um projeto aberto que serve como um hub central na nuvem de dados conectados (Linked Open Data Cloud). Apesar de possuir mais de seis milhões de dados estruturados e seu grande uso para pesquisas e processos de aprendizado de máquina, ela contém muitos dados incompletos e recursos classificados erroneamente, o que dificulta a sua abertura e uso em projetos externos. A pesquisa é então baseada na extensão dos plugins ETL4LOD para análise de diferentes versões da DBpedia através de seus templates, fazendo uma caracterização ou perfil dos dados (Data Profiling) detalhado dos mesmos. Através dessa análise foi possível encontrar, dentre outras informações, a completude de 58.3% dos munícios brasileiros na DBpedia pt em comparação a 97.3% das cidades do Japão na DBpedia ja. Resumindo, apesar da DBpedia ser importante para os dados conectados, ela ainda apresentadados incompletos, principalmente na versão portuguesa, que precisam ser trabalhados a fim de ajudar o repositório a se tornar mais completo e consequentemente apoiar o seu reuso em pesquisas e projetos futuros.
Materia: Dados abertos conectados
Data Profiling
Processamento de dados
Estudo de caso
Materia CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
Unidade de producción: Instituto de Computação
Editor: Universidade Federal do Rio de Janeiro
Fecha de publicación: 28-oct-2020
País de edición : Brasil
Idioma de publicación: eng
Tipo de acceso : Acesso Aberto
Aparece en las colecciones: Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
IQPacheco.pdf2.97 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.