Proteção de dados inteligente com IA

O CIB doXiview é uma aplicação suportada por IA que automatiza alguns passos típicos do processamento de PDF: elimina dados sensíveis, cria facturas ZUGFeRD a partir de PDF simples e torna os documentos digitalizados legíveis eletrónicamente.

Andrea Trinkwalder, editora da c't - Magazin für Computertechnik, testou o nossa ferramenta de anonimização assistida por IA no CIB doXiview :

O CIB Group, sediado em Munique, desenvolve soluções de digitalização para grandes clientes e oferece elevados padrões de proteção de dados em conformidade com o RGPD. Os utilizadores privados podem utilizar gratuitamente algumas das suas aplicações PDF padrão para o navegador, incluindo o editor simples CIB pdf standalone e o seu companheiro CIB doXiview, apoiado por IA, que processa automaticamente o conteúdo PDF. Com o primeiro, os documentos permanecem localmente no dispositivo do utilizador.

Com o CIB doXiview os documentos são carregados para a nuvem, uma vez que o layout e o reconhecimento de caracteres (OCR) não são executados localmente; suporta principalmente a ocultação de dados sensíveis e ajuda a criar e processar formulários e facturas mais rapidamente. Todos os conteúdos são eliminados do servidor após o seu processamento. A partir de 2024, o fabricante pretende introduzir modelos de subscrição para particulares e pequenas empresas. Até lá, tanto os particulares como as empresas podem experimentar o software gratuitamente.

CIB Pop

O anonimato é implementado de uma forma muito simples: um clique em "Anonimizar dados" inicia a pesquisa de informações sensíveis, após o que o CIB doXiview marca os locais adequados no documento e lista as ocorrências na barra de ferramentas à direita. Aí pode desactivá-las individual ou coletivamente.

Prático: Os resultados são ordenados por categoria. Assim, se não pretender ocultar nomes e moradas, mas pretender ocultar dados de contas, pode tomar esta decisão para todo o documento com apenas um clique. A IA também está treinada para bilhetes de identidade e passaportes, mas (ainda) não para números de segurança social.

Nos nossos testes, a função reconheceu os dados da conta e do endereço de forma bastante fiável, mas, de vez em quando, um nome ou uma designação de empresa escapava. Em qualquer caso, deve verificar cuidadosamente a sugestão de redação. As passagens de texto que a IA não tenha detectado podem ser marcadas manualmente para serem redigidas. Além disso, seria desejável dispor de uma função que permitisse definir os seus próprios padrões de pesquisa - por exemplo, para números de segurança social ou números de ficheiros. O OCR actua de forma muito cooperante. Marca os candidatos incertos a amarelo e apresenta-os para revisão numa caixa de diálogo separada: Aí pode passar rapidamente de palavra para palavra, os textos originais são mostrados ampliados durante este ciclo de correção.

A função "Criar Fatura" analisa o conteúdo de facturas PDF simples; também marca e extrai os dados da fatura e cria uma fatura ZUGFeRD com XML estruturado.

A taxa de reconhecimento varia muito; no teste, o software encontrou mais itens em documentos digitalizados do que em PDFs nativos. No entanto, os itens em falta podem ser rapidamente transferidos para os campos correspondentes utilizando um marcador. A tecnologia também simplifica o pagamento, extraindo informações de transferência de documentos de imagem ou PDF e convertendo-as num código GiroCode ou num SEPA XML.

O CIB doXiview automatiza o trabalho repetitivo em documentos PDF, aliviando assim o utilizador de rotinas entediantes. No entanto, especialmente depois de redigir dados sensíveis, uma pessoa deve verificar o resultado no final. O software apoia esta tarefa com informações bem preparadas e ajudas práticas de correção. O material é processado nos servidores do fornecedor, de acordo com a política de privacidade na União Europeia, e depois eliminado.

Este artigo foi publicado no c't 18/2023.

Andrea Trinkwalder

Redator / c't - revista de informática