
Verificador de cumplimiento en protección de datos personales
abril 7, 2026Compartimos un nuevo artefacto: “Evaluador de Riesgo de Identificación por Combinación de Datos” (hecho con Claude 🙂 )
Es una herramienta de evaluación de riesgo. Permite verificar, antes de publicar un documento, si la combinación de datos que permanecerá visible después de desidentificar puede permitir la identificación del titular.
Cuando una persona responsable de publicar un documento lo “anonimiza” generalmente hace lo que su ojo o el software de apoyo le indica: oculta nombres, documentos de identidad, datos de contacto. Son identificadores directos, visibles, muy obvios. Lo que hizo en este caso fue desidentificar, no anonimizar.
En principio y según lo que ha manifestado el Comité Europeo de Protección de Datos y que se ha replicado en diferentes guías de autoridades de protección de datos para que un dato esté verdaderamente anonimizado, se necesta que no sea posible singularizar al indivudo, vincular registros entre dataset, ni inferir información a partir de otros atributos.
Lo anterior es un poco problemático. Pensemos que al evaluar si la combinación de un municipio, ocupación, estrato y edad permite identificar a alguien es una tarea que nosotros lo podamos resolver mentalmente, se requiere combinar esos datos.
Por ejemplo:
-
Sweeney (2002) demostró que el 87% de la población de EE.UU. era identificable con solo tres quasi-identificadores: código postal, fecha de nacimiento y sexo. (DOI: 10.1142/S0218488502001648).
-
Narayanan & Shmatikov (2008) desanonimizaron 100 millones de registros de Netflix con 5 a 10 atributos cruzados contra perfiles públicos. (DOI: 10.1109/SP.2008.33)
-
Lermen et al. (2026) documentaron que los LLMs automatizan este proceso: desanonimizan hasta el 68% de perfiles con 90% de precisión. Lo que antes requería de semanas, un sistema de IA lo ejecuta en minutos. (arXiv: 2602.16800)
Y hay un problema adicional para información no estructurada, sentencias, informes, Pilán et al. (2022) documentaron que en texto libre, las técnicas de reconocimiento de entidades (NER) logran desidentificación pero no anonimización, porque los quasi-identificadores en texto narrativo son ilimitados: la apariencia física, la profesión, las opiniones, el contexto geográfico, cualquier palabra puede contribuir a la reidentificación. (MIT Press, Computational Linguistics 48(4))
Este Evaluador de Riesgo de Identificación por Combinación de Datos, ni es una herramienta de desidentificación ni de anonimización. Es una herramienta de evaluación de riesgo. Permite verificar, antes de publicar, si la combinación de datos que permanecerá visible después de desidentificar puede permitir la identificación del titular.
Usted selecciona los datos que quedarán visibles y la herramienta le muestra:
Qué información sensible se puede inferir, con qué plausibilidad, contra qué bases de datos se podría cruzar, qué técnica aplicar para reducir el riesgo
Es gratuita, pedagógica, 100% navegador, no almacena datos, y cada inferencia está respaldada por investigaciones publicadas (trazabilidad)
¿Resuelve todo? No. No analiza texto narrativo. No conoce su documento real. No reemplaza criterio jurídico. Pero le muestra lo que su ojo no puede calcular: el riesgo combinatorio.





