Seudonimización y anonimización: protección de datos con IA

Un requisito esencial para automatizar procesos usando inteligencia artificial en las empresas es poder usar documentos y casos de usos reales para posibilitar un entrenamiento de la IA adecuado. Sin embargo, estos suelen contener referencias y datos personales protegidos por el Reglamento General de Protección de Datos (RGPD). Aquí se hace necesaria una solución que detecte los datos personales y los sustituya o elimine de forma efectiva. CIB PoP ofrece una solución al dilema.

Protección de datos y progreso: ¿una contradicción?

El éxito en el terreno de la digitalización dependerá en un futuro próximo en gran medida de quién domine en el campo de la inteligencia artificial. Los principales actores son hoy las grandes empresas estadounidenses Alphabet (Google), Amazon, Meta y Microsoft. Pero China también está haciendo grandes progresos: además de las aplicaciones militares, la principal inversión aquí es la vigilancia de la población apoyada por la IA. Actualmente se está construyendo un sistema de puntuación social, en el que cada ciudadano recibe puntos por un comportamiento positivo, mientras que se restan puntos por un comportamiento negativo. Los datos proceden de múltiples fuentes, como las omnipresentes cámaras de vídeo equipadas con software de reconocimiento facial. 

Los enormes avances en Estados Unidos y China son posibles gracias a la laxitud de las leyes de protección de datos en estos países. En Europa, donde los datos personales están protegidos por el Reglamento General de Protección de Datos (RGPD), los avances en el campo de la IA se han limitado a áreas sin uso de datos personales. Esto incluye, por ejemplo, el uso de datos generados por máquinas de la industria. Sin embargo, según una encuesta de Bitkom, el 66 por ciento de las empresas implicadas en la IA declaró que mecesitan hacer uso de datos personales para obtener resultados útiles. 

La seudonimización y la anonimización permiten el aprendizaje automático conforme al GDPR

La inteligencia artificial ha logrado su mayor avance gracias a la disciplina del ” Machine Learning ” (ML). Aquí, no son las reglas sino los datos los que determinan el comportamiento de la IA. Por ejemplo, si se quiere desarrollar un algoritmo que reconozca gatos y perros en fotografías, no es necesario definir los rasgos distintivos de los animales en forma de reglas. En su lugar, el algoritmo analiza grandes conjuntos de imágenes de ejemplo de las dos especies animales. Con el tiempo, esto produce un modelo generalizado para clasificar imágenes que la IA aún no ha visto.

La base del aprendizaje automático es, por tanto, una enorme cantidad de datos de entrenamiento. Por un lado, estos datos deben ser adecuados para entrenar un modelo de ML tanto desde el punto de vista económico como técnico. Por otro lado, su uso no debe infringir el Reglamento General de Protección de Datos. Aquí contamos con dos opciones: 

  • Disfrazar la referencia personal (seudonimización) 
  • Eliminar la referencia personal (anonimización) 

Con seudonimización se dificulta la identificación de la persona

Con la seudonimización, los identificadores directos, como los nombres, se sustituyen por seudónimos. Por ejemplo, “Bernhard” se convierte en “Heinrich”. Es importante que la asignación sea inequívoca: si “Bernhard” aparece más de una vez en un registro de datos, debe ser sustituido por “Heinrich” en todas partes. Algunas aplicaciones requieren que la seudonimización sea reversible. Este es el caso si es posible obtener el valor original a partir del seudónimo, aunque para ello se requiera una clave independiente. 

La seudonimización no impide la reidentificación de los individuos, sino que dificulta las referencias correspondientes. Por lo tanto, los datos seudonimizados están sujetos al GDPR. Por ejemplo, deben ser eliminados – al igual que los reales – cuando expire la obligación de conservación y no haya otras razones para retenerlos.

La anonimización imposibilita la reidentificación

Si queremos liberarnos de la camisa de fuerza impuesta por el RGPD, habremos de recurrir a la anonimización. Para cumplir este requisito, toda la información que permita la reidentificación debe ser eliminada, redactada o sustituida. por ejemplo, por dígitos aleatorios.  

La finalidad es clave para la elección del método

Un componente importante del Reglamento General de Protección de Datos es el principio de minimización de los datos. Establece, por analogía, que los datos personales sólo pueden almacenarse y tratarse en la medida necesaria de su finalidad. Con respecto a los proyectos de IA, esto significa: Las empresas deben comprobar siempre de antemano si la finalidad del tratamiento puede lograrse con datos anonimizados. Si este es el caso y los datos siguen sin ser anonimizados, existe una violación del principio. Sólo si la finalidad no puede alcanzarse con la anonimización puede realizarse la seudonimización. 

CIB PoP reconoce y elimina los datos personales

Por supuesto, no es factible eliminar o sustituir manualmente los datos personales en los documentos o conjuntos de datos, especialmente en los proyectos de IA en los que se procesan grandes cantidades de documentos. Por esta razón, CIB ha desarrollado en colaboración con Fraunhofer IAIS una solución basada en la IA que detecta automáticamente los datos personales en los documentos y los elimina o los convierte en seudónimos: CIB PoP (Protect our Privacy)

CIB Pop

En el caso de los documentos basados en imágenes, CIB PoP reconoce primero el texto. A continuación, el contenido del texto se pasa a un modelo lingüístico (modelo PNL). Este ha sido preparado con datos de entrenamiento y es capaz de identificar de forma independiente todo el contenido relevante para el GDPR. En el siguiente paso, estos pueden anonimizarse o eliminarse opcionalmente. En este último caso, todo rastro se elimina realmente de los documentos. Cabe destacar la función de “borrado realista”. Con esta función, la IA reconstruye el fondo. Por ejemplo, el escaneo de un formulario rellenado vuelve a su  versión en blanco.  

CIB PoP está disponible desde junio de 2022 como parte del visor de documentos CIB doXiview y abre nuevas posibilidades para los procesos basados en documentos. Entre otros, la solución permite utilizar los documentos como datos de entrenamiento para tareas de IA como la clasificación de documentos y el reconocimiento de textos. Con CIB PoP, por ejemplo, se pueden implementar los siguientes escenarios de IA de forma compatible con el GDPR:  

  • Identificación de procesos de negocio basados en el contenido de los documentos 
  • Extracción de datos de procesos documentales (por ejemplo, facturas) 
  • Comprobación de la integridad de los formularios entrantes, documentos de solicitud y escaneados 

El proyecto de investigación ha demostrado que las tareas de este tipo pueden gestionarse con la anonimización. Por regla general, no es necesario sustituir los textos de forma absolutamente realista. En algunos casos, incluso es suficiente con eliminar los textos.  

CIB PoP permite el tratamiento de datos con inteligencia artificial y conforme al RGPD

Especialmente para la mediana empresa ha sido difícil, si no imposible, utilizar el contenido de los documentos para el entrenamiento de aplicaciones de IA de forma conforme al RGPD. Ahora con CIB PoP es posible, y de forma muy sencilla, eliminar la referencia personal original de un documento y utilizar el contenido restante para un desarrollo de IA seguro y conforme al RGPD. 

¿Quiere saber más sobre esta tecnología? Póngase en contacto con nosotros.

Florian Deuring

Autor especialista en software y digitalización