Please use this identifier to cite or link to this item: http://hdl.handle.net/11422/13594
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorCampos, Maria Luiza Machado-
dc.contributor.authorPacheco, Ingrid Quintanilha-
dc.date.accessioned2021-02-01T14:57:59Z-
dc.date.available2023-12-21T03:07:24Z-
dc.date.issued2020-10-28-
dc.identifier.urihttp://hdl.handle.net/11422/13594-
dc.languageengpt_BR
dc.publisherUniversidade Federal do Rio de Janeiropt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectDados abertos conectadospt_BR
dc.subjectData Profilingen
dc.subjectProcessamento de dadospt_BR
dc.subjectEstudo de casopt_BR
dc.titleETL4PROFILING: extending ETL4LOD to analyze datasets completeness – a DBpedia case studypt_BR
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/0659658820912418pt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/5797847816206981pt_BR
dc.contributor.referee1Moreira, João Luiz Rebelo-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/3321809257390602pt_BR
dc.contributor.referee2Lopes, Giseli Rabello-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/9439416101626260pt_BR
dc.contributor.referee3Ngomo, Jean Gabriel Nguema-
dc.contributor.referee3Latteshttp://lattes.cnpq.br/9793278432833480pt_BR
dc.description.resumoÀ medida que a quantidade de dados no mundo cresce, é importante mantê-los acessíveis e usáveis, ao mesmo tempo que corretos e confiáveis. Além disso, o princípio R1 (Reuse)1 da FAIR argumenta que é mais fácil encontrar e reusar dados se eles tiverem muitos rótulos atrelados a eles, considerando que ter uma boa qualidade de dados é essencial para qualquer repositório quando se trata de apoiar a sua abertura e reuso. Desta forma, o presente estudo tem a intenção de analisar as atuais condições de diversos conjuntos de dados, com um foco especial para a DBpedia, um projeto aberto que serve como um hub central na nuvem de dados conectados (Linked Open Data Cloud). Apesar de possuir mais de seis milhões de dados estruturados e seu grande uso para pesquisas e processos de aprendizado de máquina, ela contém muitos dados incompletos e recursos classificados erroneamente, o que dificulta a sua abertura e uso em projetos externos. A pesquisa é então baseada na extensão dos plugins ETL4LOD para análise de diferentes versões da DBpedia através de seus templates, fazendo uma caracterização ou perfil dos dados (Data Profiling) detalhado dos mesmos. Através dessa análise foi possível encontrar, dentre outras informações, a completude de 58.3% dos munícios brasileiros na DBpedia pt em comparação a 97.3% das cidades do Japão na DBpedia ja. Resumindo, apesar da DBpedia ser importante para os dados conectados, ela ainda apresentadados incompletos, principalmente na versão portuguesa, que precisam ser trabalhados a fim de ajudar o repositório a se tornar mais completo e consequentemente apoiar o seu reuso em pesquisas e projetos futuros.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentInstituto de Computaçãopt_BR
dc.publisher.initialsUFRJpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOpt_BR
dc.embargo.termsabertopt_BR
Appears in Collections:Ciência da Computação

Files in This Item:
File Description SizeFormat 
IQPacheco.pdf2.97 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.