Protección de datos inteligente con IA

CIB doXiview es una aplicación basada en IA que automatiza algunos pasos típicos del procesamiento de PDF: elimina datos confidenciales, crea facturas ZUGFeRD a partir de PDF sencillos y hace que los documentos escaneados sean legibles por tu dispositivo.

Andrea Trinkwalder, redactora de c't - Magazin für Computertechnik, ha probado nuestra herramienta de anonimización asistida por IA en in CIB doXiview :

CIB Group, con sede en Múnich, desarrolla soluciones de digitalización para grandes clientes y hace publicidad de sus elevados estándares de protección de datos y cumplimiento de la DSGVO. Los usuarios privados pueden utilizar gratuitamente algunas de sus aplicaciones PDF estándar para el navegador, incluido el sencillo editor CIB pdf standalone y su compañero CIB doXiview, que procesa automáticamente el contenido PDF. Con el primero, los documentos permanecen localmente en el dispositivo del usuario.

Este último los sube a la nube porque la maquetación y el reconocimiento de caracteres (OCR) no se ejecutan localmente; sirven sobre todo para ennegrecer datos sensibles y ayudan a crear y procesar formularios y facturas más rápidamente. Todo el contenido se elimina del servidor tras su procesamiento. A partir de 2024, el fabricante quiere introducir modelos de suscripción para particulares y pequeñas empresas. Hasta entonces, tanto particulares como empresas pueden probar el software gratuitamente.

CIB Pop

El anonimizado se implementa de forma muy sencilla: un clic en "Anonimizar datos" inicia la búsqueda de información sensible, tras lo cual CIB doXiview marca los lugares adecuados en el documento y también enumera los aciertos en la barra de herramientas de la derecha. Allí puede desactivarlos individual o colectivamente.

Nota práctica: Los resultados están ordenados por categorías. Así, si no desea tachar nombres y direcciones, pero sí los datos de una cuenta, puede tomar esta decisión para todo el documento con un solo clic. La IA también está entrenada para los documentos de identidad y los pasaportes, pero no (todavía) para los números de la Seguridad Social.

En nuestras pruebas, la función reconoció los datos de cuentas y direcciones con bastante fiabilidad, pero de vez en cuando se escapaba algún nombre o razón social. En cualquier caso, debe comprobar cuidadosamente la sugerencia de redacción. Los pasajes de texto que la IA haya pasado por alto pueden marcarse manualmente para su redacción. Además, sería deseable disponer de una función que permitiera definir patrones de búsqueda propios, por ejemplo, para números de la seguridad social o números de expediente. El OCR actúa de forma muy cooperativa. Marca en amarillo los candidatos inciertos y los presenta para su revisión en un cuadro de diálogo aparte: Allí puede pasar rápidamente de una palabra a otra; los textos originales se muestran ampliados durante este bucle de corrección.

La función "Crear factura" analiza el contenido de facturas PDF simples; también marca y extrae los datos de la factura y crea a partir de ellos una factura ZUGFeRD con XML estructurado.

La tasa de reconocimiento es muy variable; en la prueba, el software encontró más elementos en los documentos escaneados que en los PDF nativos. Sin embargo, los elementos que faltan pueden transferirse rápidamente a los campos correspondientes con un rotulador. La tecnología también simplifica el pago extrayendo la información de transferencia de los documentos de imagen o PDF y convirtiéndola en un GiroCode o SEPA XML.

CIB doXiview automatiza el trabajo repetitivo en documentos PDF y libera así al usuario de tediosas rutinas. Sin embargo, especialmente después de redactar datos sensibles, un humano debe comprobar el resultado al final. El software ayuda a ello con información bien preparada y prácticas ayudas para la corrección. El material se procesa en los servidores del proveedor, al menos dentro de Europa según la política de privacidad, y luego se elimina.

Este artículo se publicó en c't 18/2023.

Andrea Trinkwalder

Redactor / c't - revista de informática