Please use this identifier to cite or link to this item: http://hdl.handle.net/11422/14769
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorBastos, Valeria Menezes-
dc.contributor.authorCorral, Vitor Curiel Trentin-
dc.date.accessioned2021-08-12T01:11:39Z-
dc.date.available2023-12-21T03:08:05Z-
dc.date.issued2021-08-06-
dc.identifier.urihttp://hdl.handle.net/11422/14769-
dc.languageporpt_BR
dc.publisherUniversidade Federal do Rio de Janeiropt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectLigação de registropt_BR
dc.subjectSistemas de informaçãopt_BR
dc.subjectSaúde públicapt_BR
dc.titleGerador de dados sintéticos para testes de rotinas de record linkage para o contexto brasileiropt_BR
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/6948667770415330pt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/6174976478452718pt_BR
dc.contributor.advisorCo1Coeli, Claudia Medina-
dc.contributor.advisorCo1Latteshttp://lattes.cnpq.br/8907425950833384pt_BR
dc.contributor.referee1Costa, Myrian Christina de Aragão-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/1439066760889922pt_BR
dc.contributor.referee2Vivacqua, Adriana Santarosa-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/6494676052801758pt_BR
dc.description.resumoRecord linkage tem sido cada vez mais usado no Brasil, no entanto, apenas alguns estudos relatam a qualidade do processo de ligação, principalmente na área de saúde coletiva, onde é necessário efetuar a ligação dos pacientes em diversas bases de dados identificadas do SUS, para investigar causas e consequências das doenças e pacientes, e permitir estabelecer formas de controle e administração pública na área de saúde. Dados de testes gerados sinteticamente podem ser usados para avaliar a qualidade do vínculo de dados, para desenvolver um gerador de dados sintéticos que crie conjuntos de dados de teste com atributos, características e erros semelhantes ao contexto brasileiros. Para isso, foi analisado o banco de dados de mortalidade (SIM) do Estado do Rio de Janeiro de 2013, para se conhecer as características e a distribuição de frequência dos atributos que o identificam (nome do paciente, nome da mãe, sexo, data de nascimento e endereço). A metodologia de avaliação e geração de dados apresentado em (TRAN; VATSALAN; PETER, 2020) foi utilizado neste trabalho, com adaptações aos padrões de nomes brasileiros, sendo que suas principais rotinas foram reescritas em C++ e posteriormente em Python, compondo uma ferramenta de geração de dados pessoais para o padrão brasileiro. Os nomes brasileiros têm características específicas que os distinguem dos padrões de outros países: vários nomes de família são comuns, como nomes próprios compostos, com parte do nome do pai, ou da mãe, ou ambos, além da ocorrência frequente de homônimos. Devido às características nacionais específicas dos nomes no Brasil, a modelagem de dados sintéticos é uma atividade particularmente desafiadora e precisa ter regras mais flexíveis para gerar bancos de dados que permitam avaliar a qualidade dos processos de vinculação de dados com identificação.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentInstituto de Computaçãopt_BR
dc.publisher.initialsUFRJpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAOpt_BR
dc.embargo.termsabertopt_BR
Appears in Collections:Ciência da Computação

Files in This Item:
File Description SizeFormat 
VCTCorral.pdf475.61 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.