Gerador de dados sintéticos para testes de rotinas de record linkage para o contexto brasileiro

Corral, Vitor Curiel Trentin

Pantheon Repositorio Institucional

Recopila, preserva y difundi la producción académica digital en todas las áreas del conocimiento.
Comprende los activos del repositorio, además de tesis y disertaciones en la UFRJ, artículos científicos, libros electrónicos, capítulos de libros y trabajos presentados en eventos para los profesores, investigadores, personal administrativo y estudiantes de maestría y doctorado.

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11422/14769

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	Bastos, Valeria Menezes	-
dc.contributor.author	Corral, Vitor Curiel Trentin	-
dc.date.accessioned	2021-08-12T01:11:39Z	-
dc.date.available	2023-12-21T03:08:05Z	-
dc.date.issued	2021-08-06	-
dc.identifier.uri	http://hdl.handle.net/11422/14769	-
dc.language	por	pt_BR
dc.publisher	Universidade Federal do Rio de Janeiro	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Ligação de registro	pt_BR
dc.subject	Sistemas de informação	pt_BR
dc.subject	Saúde pública	pt_BR
dc.title	Gerador de dados sintéticos para testes de rotinas de record linkage para o contexto brasileiro	pt_BR
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/6948667770415330	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/6174976478452718	pt_BR
dc.contributor.advisorCo1	Coeli, Claudia Medina	-
dc.contributor.advisorCo1Lattes	http://lattes.cnpq.br/8907425950833384	pt_BR
dc.contributor.referee1	Costa, Myrian Christina de Aragão	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/1439066760889922	pt_BR
dc.contributor.referee2	Vivacqua, Adriana Santarosa	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/6494676052801758	pt_BR
dc.description.resumo	Record linkage tem sido cada vez mais usado no Brasil, no entanto, apenas alguns estudos relatam a qualidade do processo de ligação, principalmente na área de saúde coletiva, onde é necessário efetuar a ligação dos pacientes em diversas bases de dados identificadas do SUS, para investigar causas e consequências das doenças e pacientes, e permitir estabelecer formas de controle e administração pública na área de saúde. Dados de testes gerados sinteticamente podem ser usados para avaliar a qualidade do vínculo de dados, para desenvolver um gerador de dados sintéticos que crie conjuntos de dados de teste com atributos, características e erros semelhantes ao contexto brasileiros. Para isso, foi analisado o banco de dados de mortalidade (SIM) do Estado do Rio de Janeiro de 2013, para se conhecer as características e a distribuição de frequência dos atributos que o identificam (nome do paciente, nome da mãe, sexo, data de nascimento e endereço). A metodologia de avaliação e geração de dados apresentado em (TRAN; VATSALAN; PETER, 2020) foi utilizado neste trabalho, com adaptações aos padrões de nomes brasileiros, sendo que suas principais rotinas foram reescritas em C++ e posteriormente em Python, compondo uma ferramenta de geração de dados pessoais para o padrão brasileiro. Os nomes brasileiros têm características específicas que os distinguem dos padrões de outros países: vários nomes de família são comuns, como nomes próprios compostos, com parte do nome do pai, ou da mãe, ou ambos, além da ocorrência frequente de homônimos. Devido às características nacionais específicas dos nomes no Brasil, a modelagem de dados sintéticos é uma atividade particularmente desafiadora e precisa ter regras mais flexíveis para gerar bancos de dados que permitam avaliar a qualidade dos processos de vinculação de dados com identificação.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Instituto de Computação	pt_BR
dc.publisher.initials	UFRJ	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO	pt_BR
dc.embargo.terms	aberto	pt_BR
Aparece en las colecciones:	Ciência da Computação

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
VCTCorral.pdf		475.61 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem Recomiende este ítem View Statistics