Associação da Rede Unida, 15º Congresso Internacional da Rede Unida

Anais do 13º Congresso Internacional da Rede Unida

v. 4, Suplemento 1 (2018). ISSN 2446-4813: Saúde em Redes
Suplemento, Anais do 13ª Congresso Internacional da Rede UNIDA
Tamanho da fonte: 
Vinculação de bancos de dados de Sistemas de Informação em Saúde: técnicas para o serviço e a academia
Klauss Kleydmann Sabino Garcia, Danielly Batista Batista Xavier

Última alteração: 2022-02-08

Resumo


Apresentação: A vigilância em saúde tem como um de seus componentes a vigilância epidemiológica de doenças e agravos que afetam a saúde da população. Para este monitoramento o Ministério da Saúde faz a utilização de Sistemas de Informação em Saúde (SIS) como o Sistema de informação de agravos de notificação em saúde (Sinan), Sistema de Informação de Mortalidade (SIM), entre outros. Além dos SIS, os diferentes setores da vigilância epidemiológica também podem utilizar bancos de dados de outros setores governamentais como informações do Ministério Público do Trabalho, Instituto Brasileiro de Geografia e Estatística (IBGE).

Dada a impossibilidade da criação de um sistema único de informações que abarque todas as informações epidemiológicas e a inexistência de um código identificador universal dos indivíduos em diferentes SIS, a análise epidemiológica encontra um desafio na mensuração de comorbidades e carga de doenças. Diante disso, a vinculação de dados de diferentes sistemas se mostra uma ferramenta fundamental na vigilância em saúde. Assim, o objetivo desse trabalho é apresentar uma revisão de técnicas de pareamento aplicadas na vigilância em saúde e no tratamento de dados públicos.

Desenvolvimento e Métodos: Artigo de revisão metodológica sobre vinculação de bancos de dados com a utilização de técnicas de vinculação determinística ou probabilística. Este trabalho foi construído considerando a utilização da linguagem R.

Método determinístico: O método determinístico considera o pareamento de registros 100% iguais. Nesse sentido, não há a necessidade de cálculos estatísticos para o seu pareamento. Apenas registros iguais, ou seja, aqueles que possuem os mesmos caracteres na mesma ordem serão vinculados. Nessa técnica, são utilizadas chaves de vinculação, que são variáveis presentes nas bases de dados que serão submetidas ao pareamento. As principais variáveis utilizadas como chaves de pareamento determinístico são os dados pessoais, como o nome completo, nome completo da mãe, data de nascimento e número no cadastro de pessoa física (CPF).

Método probabilístico: O método probabilístico considera o pareamento de registros que possuem diferenças entre si mas alta probabilidade de ser um par verdadeiro. Para isso, são utilizadas medidas estatísticas de distância ou similaridade que permitem identificar palavras ou datas que possuem a maior probabilidade de serem iguais. O método também permite a identificação de pares 100% iguais. Utilizado de forma ampla em serviços públicos no Brasil e no mundo, o pareamento probabilístico apresenta como limitação a necessidade de capacidade de processamento e hardwares potentes, que nem sempre estão disponíveis nos serviços públicos e universidades brasileiras. Para a vinculação probabilística, em geral, são utilizadas as variáveis nome, sobrenome, nome completo da mãe, data de nascimento.

Preparação dos bancos de dados: Para a realização da vinculação determinística foram escolhidos os pacotes do R: “lubridate” e “tidyverse”. Para a vinculação probabilística serão usados os pacotes: “stringr”, “stringi”, “fuzzyjoin”, “stringdist”, “abjutils”, “Rcpp” e “abjutils”.

É essencial que antes de qualquer tipo de vinculação de dados seja realizada uma avaliação da qualidade do banco de dados para subsidiar o processo de tratamento da base. Além disso, deverão ser escolhidas as variáveis utilizadas no pareamento das bases. Sugere-se que essas escolhas sejam testadas em uma amostra inicial, antes de realizar o pareamento completo com a finalidade de seleção de variáveis que sejam uteis e que ajudem no aumento da acurácia do pareamento, assim como na exclusão de variáveis excessivas que não aumentem a probabilidade de pareamentos corretos, mas que aumentem a necessidade de processamento do hardware utilizado.

As variáveis selecionadas devem ser padronizadas, excluindo todos os caracteres especiais, preposições e conectores. As variáveis nominais deverão ser convertidas no tipo “character”, as datas deverão ser convertidas em no tipo “date” e as variáveis numéricas devem ser convertidas no tipo “numeric” ou “double” para valores contínuos e em “integer” para valores inteiros.

Para a realização da vinculação probabilística por meio do pacote “fuzzyjoin”, é necessária a definição de parâmetros para a comparação das informações nos diferentes bancos de dados. Nesse pacote, é necessário definir as medidas de distância para as variáveis nominais e numéricas, além das datas. Duas medidas de distância muito utilizadas nos pareamentos são as distâncias de Cosine, usada para sobrenomes, e de Levenshtein, usadas para nomes.  Para os valores numéricos e datas, pode-se optar por utilizar a subtração aritmética, entretanto, para datas é possível o uso de distâncias utilizadas para nomes, considerando um possível preenchimento incorreto.

A diferença entre o método determinístico e o método probabilístico consiste na detecção de pares idênticos e pares não-idênticos. É importante que ao se utilizar o método probabilístico haja a possibilidade de uma revisão manual dos dados para exclusão de possíveis pares falsos-positivos. Ainda, a decisão de quantas variáveis-chaves de vinculação serão utilizadas também pode impactar nos resultados, pois quanto mais chaves forem utilizadas no método determinístico menor será a quantidade de pares encontrados. Já no método probabilístico a utilização de mais chaves pode ajudar a refinar a busca e facilitar a revisão manual.

Resultados e/ou impactos: Em um cenário com diversas bases de dados distintas, a vigilância em saúde se beneficia de técnicas de pareamento determinístico e probabilístico, que são técnicas amplamente utilizadas em serviços públicos. Com a Lei Geral de Proteção de Dados (Lei nº 13.709, de 14 de agosto de 2018), o acesso a dados nominais, muitas vezes necessários ao pareamento dos dados, se tornou mais difícil. Nesse sentido, a LGPD protege a solicitação e o uso de dados nominais, desde que justificados e não utilizados para outros fins que não a pesquisa. Além disso, a Lei nº 13.853, de 8 de julho de 2019 protege o uso de dados para finalidades de serviços de saúde, desde que utilizados de forma responsável por profissionais de saúde.

Nesse contexto, as técnicas de vinculação de dados permitem, além da identificação de novas informações, a comparação de informações presentes entre os diferentes bancos de dados, o que subsidia avaliações de qualidade dos dados e complementação e aprimoramento de políticas de saúde.

Considerações finais: As técnicas de pareamento de dados são úteis nos serviços da administração pública nacional e mundial e devem ser empregados em serviços de saúde, considerando o cenário de ausência de dados unificados de indivíduos e populações usuárias dos serviços de saúde. Os técnicos de vigilância em saúde e pesquisadores podem escolher as técnicas de pareamento melhor aplicadas ao seu cenário, considerando as técnicas e os equipamentos disponíveis

O desenvolvimento destas técnicas e suas aplicações são frutos de um processo de interoperabilidade entre Sistemas de Informação em Saúde que é inexistente. É essencial que os departamentos de tecnologia em saúde do Ministério da Saúde continuem a desenvolver um SIS que possam abarcar as diferentes informações de saúde nos diferentes ciclos de vida das populações.

É necessário que protocolos de aquisição, tratamento e pareamento de dados sejam melhor definidos pelos serviços públicos e trabalhados para que processos de vinculação de dados possam ser realizados em ambientes de instituição de ensino e pesquisa para que a produção de conhecimento técnico-científico por Universidades não seja prejudicada. As instituições técnicas e as de ensino e pesquisa necessitam estruturar melhor a ponte de conhecimento que conecta ambas, pois o distanciamento entre elas oferta risco a produção de conhecimento em saúde.