Anonimização de dados: o que é e qual sua importância na LGPD?
Após a promulgação da LGPD, o conceito de anonimização começou a ser reverberado pelos quatro cantos do mundo corporativo brasileiro, inclusive, muitas vezes de forma equivocada.
É muito importante compreender que a anonimização não é apenas uma questão de operacionalizar uma obrigação legal, mas é uma estratégia essencial de proteção de dados que permite às organizações continuar utilizando informações para fins legítimos sem comprometer a privacidade dos titulares.
O que é anonimização de dados?
A anonimização é um procedimento pelo qual os dados deixam de ser identificáveis e vinculados a uma pessoa natural identificada ou identificável. A partir desse processo técnico, o dado pessoal é desconstruído, ou seja, ao final a informação está desvinculada do titular direta ou indiretamente.
Em outras palavras, trata-se de um processo irreversível que transforma dados pessoais em informações que não podem mais ser associadas a um indivíduo específico, mesmo com o uso de meios técnicos adicionais.
Em tese, um dado anonimizado deixa de estar submetido às regras e princípios da LGPD.
Nesse contexto, a LGPD define dado anonimizado (art. 5º, III): “dado relativo a titular que não possa ser identificado, considerando a utilização de meios técnicos razoáveis e disponíveis na ocasião de seu tratamento”.
Esta definição estabelece um critério contextual e temporal, reconhecendo que a eficácia da anonimização deve ser avaliada considerando a tecnologia disponível no momento do tratamento.
Como o legislador nunca joga palavras ao vento, é importante sempre ter atenção no que é “meios técnicos razoáveis e disponíveis”, considerando para tanto qual a tecnologia proporcional e aplicável ao caso, considerando o porte e poder financeiro dos agentes.
Os critérios de razoabilidade incluem:
-
- Custo para reversão do processo;
- Tempo necessário para reidentificação;
- Tecnologia empregada; e
- Recursos disponíveis ao agente de tratamento.
Efeito Mosaico
Algumas pessoas sustentam que é impossível anonimizar de forma definitiva um dado, pois é possível aplicar o efeito “mosaico” ou efeito “quebra-cabeça”, que é juntar contexto e diferentes fontes de informações para identificar de quem é o dado.
Imagine que você possui informações aparentemente anônimas sobre idade (35 anos), cidade (São Paulo), profissão (advogado) e bairro de residência (Itaim Bibi).
Individualmente, esses dados podem parecer anônimos, mas quando combinados com outras bases de dados públicas ou comerciais, podem permitir a identificação do titular.
Cruzando essas informações com dados de redes sociais, registros profissionais ou bases comerciais, é possível reduzir significativamente o conjunto de pessoas que atendem a esses critérios até identificar um indivíduo específico. Isso porque a agregação de informações pode revelar a imagem do tal “quebra-cabeça”.
Conforme a obra Mitos e Falácias sobre “Informações Pessoais Identificáveis”, de Arvind Narayanan e Vitaly Shmatikov, cada vez mais a demonstração de que um processo de anonimização pode ser infalível se torna cada vez mais distante. E isso se torna ainda mais relevante com o avanço da big data e da inteligência artificial.
Estudos realizados nos Estados Unidos no âmbito da saúde demonstram que 99,98% dos americanos seriam corretamente reidentificados em qualquer conjunto de dados usando apenas 15 atributos demográficos. Outra pesquisa, da Georgetown Law Technology Review, indica que 63% dos americanos podem ser identificados usando seu gênero, data de nascimento e CEP.
Existe a tese que dados anônimos são sempre dados potencialmente relacionados a uma pessoa natural, portanto, a reidentificação seria sempre possível, em menor ou maior grau, dependendo dos recursos disponíveis e das técnicas empregadas.
O impacto da evolução tecnológica
O que hoje é considerado seguro pode não ser amanhã. Isso porque a dificuldade para reverter um processo de anonimização, ou seja, para tentar identificar novamente as pessoas por trás de um conjunto de dados depende da tecnologia disponível em cada época.
A título de exemplo, fala-se há anos sobre a chegada da computação quântica, uma tecnologia muito mais poderosa do que a que usamos hoje. Embora ainda em desenvolvimento, especialistas estimam que computadores quânticos comercialmente viáveis podem se tornar realidade nas próximas duas décadas.
Quando ela se tornar realidade, será possível processar informações em uma velocidade e escala muito maiores, o que pode reduzir bastante o tempo e o custo para quebrar técnicas atuais de anonimização.
Além disso, técnicas emergentes como aprendizado federado, análise de redes complexas e inteligência artificial explicável já estão ampliando as possibilidades de reidentificação no presente.
Ou seja, a proteção de dados não é estática, mas ela precisa ser constantemente atualizada para acompanhar os avanços tecnológicos. Isso exige das organizações um programa contínuo de reavaliação e atualização de suas técnicas de anonimização.
Critérios legais para a anonimização
No contexto demonstrado, a LGPD traz alguns critérios bem expansionistas para a anonimização, considerando meios próprios e esforços razoáveis.
Além do tempo e a tecnologia empregados, devem ser ponderados os recursos técnicos e financeiros disponíveis ao agente responsável pela eventual reidentificação.
Não basta que um dado seja possivelmente atrelado a uma pessoa natural para que ele seja considerado identificável. A terminologia “esforço razoável” da LGPD traz alguma flexibilidade nesse conceito.
Na prática, isso significa que a organização deve demonstrar que implementou medidas proporcionais ao risco e aos recursos disponíveis, não sendo exigida proteção contra-ataques teoricamente possíveis, mas economicamente inviáveis.
Entre alguns procedimentos de anonimização temos:
- A generalização;
- A perturbação de dados;
- A geração de dados sintéticos;
- O mascaramento de dados;
- A randomização; e
- A pseudonimização, a qual deve ser tratada em separado das demais técnicas devidas suas peculiaridades.
Na generalização, a ideia é reduzir a granularidade da informação para reduzir a probabilidade de identificação.
Exemplos práticos incluem a transformação de idades específicas (32 anos) em faixas etárias (30-35 anos), substituir endereços completos por bairros ou CEPs parciais, ou generalizar profissões específicas (cirurgião cardiovascular) por categorias amplas (profissional da saúde).
Já na perturbação de dados, a ideia é obscurecer os dados, mas mantê-los pertinentes para a finalidade da atividade de tratamento. A perturbação de dados pode se concretizar com a adição de ruído nos dados.
Esta técnica inclui a adição controlada de variações estatísticas que preservam padrões gerais enquanto obscurecem valores individuais. Por exemplo, em pesquisas salariais, pode-se adicionar ou subtrair valores aleatórios pequenos (±5%) a cada salário individual, mantendo a média e distribuição geral da amostra, mas impedindo a identificação de salários específicos de forma a individualizar o titular do dado.
LEIA TAMBÉM: Governança de Dados e LGPD: Perguntas Frequentes (FAQ)
Uma outra alternativa de anonimização é a geração de dados sintéticos, o que consiste na geração de dados fictícios que replicam padrões de dados reais, ou seja, a criação de dados artificiais que mantém a aplicabilidade operacional no tratamento do dado. A ideia é replicar propriedades dos dados originais sem usar informações reais e identificáveis.
Utilizando algoritmos de aprendizado de máquina, esta técnica analisa as características estatísticas e correlações presentes nos dados originais para gerar um novo conjunto de dados que mantém as propriedades analíticas, mas não corresponde a pessoas reais. Esta abordagem é particularmente útil para desenvolvimento de sistemas, treinamento de modelos de IA e análises estatísticas.
Um exemplo prático é a utilização de ferramentas de IA para gerar documentos clínicos sintéticos a partir da transcrição de áudios de consultas médicas. Nesses casos, os algoritmos aplicam regras rígidas de anonimização e substituição, como:
- Substituir nomes, documentos, telefones, endereços, datas e e-mails por equivalentes sintéticos (ex.: nomes fictícios brasileiros, CPFs inexistentes, datas artificiais que mantêm a sazonalidade);
- Preservar integralmente termos médicos, nomes de medicamentos, procedimentos clínicos, idades relevantes, valores de exames e sintomas, para que o conteúdo mantenha utilidade científica e operacional;
- Manter a fluidez e naturalidade do texto, garantindo que o resultado simule de forma realista o registro clínico original.
Dessa forma, obtêm-se registros com valor analítico e operacional, mas que não representam dados pessoais de pacientes reais, reduzindo riscos de exposição e garantindo maior aderência às exigências legais de proteção de dados.
No mascaramento de dados, há a ofuscação dos dados originais, mas a manutenção do formato e da estrutura.
O mascaramento pode ser estático ou dinâmico. No mascaramento estático, há a alteração de forma consistente em todos os pontos de dados. Já no dinâmico, os dados originais são preservados, mas mascarados na hora da análise. Um exemplo comum é quando um CPF (ex.: 123.456.789-12) é substituído por um numeral com os primeiros algarismos mascarados (ex.: XXX.XXX.789-12).
Outras aplicações incluem: mascaramento de nomes (João Silva → J* S****), números de cartão (1234 5678 9012 3456 para **** **** **** 3456), e e-mails (usuario@empresa.com para u*****@empresa.com).
A randomização é a introdução de uma variação aleatória controlada nos dados para reduzir a chance de associação a indivíduos específicos, preservando utilidade estatística. Isso pode ocorrer por:
- Embaralhamento de valores entre registros (ex.: trocar datas de exames dentro de um mesmo grupo etário);
- Deslocamento aleatório em datas e números (ex.: somar/subtrair poucos dias ou pontos em resultados);
- Arredondamentos aleatórios e técnicas de resposta aleatória em atributos sensíveis.
A randomização, isoladamente, nem sempre garante anonimização plena. sendo recomendável sua combinação com outras técnicas conforme o risco e a finalidade do tratamento.
Por isso, a escolha dos parâmetros (amplitude do ruído, grupos de permutação, taxas de aleatoriedade) deve equilibrar privacidade e utilidade.
Pseudonimização, uma modalidade de anonimização?
Uma forma alternativa de aplicação do princípio da necessidade em conformidade com a LGPD com a preservação da integridade do dado e da privacidade de forma concomitante é a pseudonimização. A partir desse tipo de técnica, você substitui um dado original por pseudônimos ou identificadores falsos para evitar a identificação direta de indivíduos.
Mas é importante diferenciar a anonimização da pseudonimização. Diferentemente da anonimização completa, os dados pseudonimizados podem ser reidentificados usando uma chave que vincula os pseudônimos a identidades reais.
Se a anonimização pode ser revertida para a informação voltar a ser um dado pessoal, ela permanece submetida às regras da LGPD. A pseudonimização, portanto, não remove os dados do escopo da LGPD, mas oferece uma camada adicional de proteção que pode justificar tratamentos específicos e reduzir riscos.
Se a anonimização pode ser revertida para a informação voltar a ser um dado pessoal, de forma ela volta ao status anterior, ela permanece submetida as regras da LGPD.
O §4º do art. 13 da LGPD define pseudonimização no contexto de estudos em saúde pública como “o tratamento por meio do qual um dado perde a possibilidade de associação, direta ou indireta, a um indivíduo, senão pelo uso de informação adicional mantida separadamente pelo controlador em ambiente controlado e seguro”.
Esta definição, embora contextualizada em saúde pública, estabelece os princípios gerais aplicáveis: reversibilidade controlada e separação física/lógica das chaves de identificação.
A pseudonimização dificulta a identificação direta, mas ainda é reversível. Entre as técnicas relacionadas a esse procedimento temos:
- Embaralhamento dos dados;
- Tokenização;
- Cifração (criptografia).
O embaralhamento reorganiza elementos dos dados de forma sistemática, a tokenização substitui dados por tokens aleatórios mantendo uma tabela de correspondência segura, já a cifração aplica algoritmos criptográficos para codificar os dados, sendo reversível apenas com as chaves apropriadas.
Claramente, essas técnicas dificultam a identificação do titular do dado, mas não necessariamente o dado vai ser considerado anonimizado pela LGPD. A escolha entre essas técnicas deve considerar fatores como:
- Nível de segurança necessário;
- Performance exigida, complexidade de implementação; e
- Necessidade de reversibilidade dos dados.
Implementação prática
A LGPD trouxe critérios para avaliar e resguardar os titulares e as organizações controladoras de dados. Para implementação efetiva, as organizações devem estabelecer:
- Uma metodologia de avaliação de risco de reidentificação antes da implementação;
- Processos de monitoramento contínuo da eficácia das técnicas aplicadas;
- Procedimentos de revisão periódica considerando avanços tecnológicos;
- Documentação detalhada de todas as técnicas aplicadas e critérios utilizados;
- Definição clara de responsabilidades entre controladores e operadores.
Na área de saúde, por exemplo, a anonimização é aplicada em registros médicos para pesquisas epidemiológicas, mantendo informações sobre diagnósticos e tratamentos enquanto remove identificadores diretos.
No setor financeiro, dados transacionais são anonimizados para análises de risco e desenvolvimento de produtos, preservando padrões comportamentais sem expor clientes específicos.
Já no varejo, informações de compra são tratadas para análises de mercado e personalização de ofertas, utilizando técnicas que mantêm perfis de consumo sem identificar compradores individuais.
Conclusão
Para efeitos de conformidade com a principiologia da LGPD, os dados sempre devem ser anonimizados quando possível. Contudo, esta não é uma tarefa trivial e exige:
- Investimento em expertise técnica especializada;
- Avaliação contínua de riscos e eficácia das técnicas implementadas;
- Manutenção de programa de atualização tecnológica;
- Estabelecimento de métricas claras para avaliar o sucesso da anonimização;
- Preparação para adaptação às mudanças tecnológicas e regulatórias.
A anonimização representa tanto uma oportunidade quanto um desafio para as organizações. Quando bem implementada, permite a continuidade de atividades de tratamento importantes mantendo a proteção dos titulares.
Mas quando mal executada, pode gerar falsas sensações de segurança e exposição a riscos significativos.
O investimento em processos robustos de anonimização não é apenas uma questão de compliance, mas uma vantagem competitiva sustentável em um ambiente regulatório cada vez mais rigoroso.

