Clever schwärzen mit KI

CIB doXiview ist eine KI-gestützte Anwendung, die einige typische PDF-Bearbeitungsschritte automatisiert: Sie schwärzt sensible Daten, erstellt ZUGFeRD-Rechnungen aus einfachen PDFs und macht gescannte Dokumente maschinenlesbar.

Frau Andrea Trinkwalder, Redakteurin beim c’t – Magazin für Computertechnik, hat unser KI-gestütztes Schwärzen in CIB doXiview getestet:

Die Münchner CIB Group entwickelt Digitalisierungslösungen für Großkunden und wirbt mit hohen Datenschutzstandards und DSGVO-Konformität. Einige ihrer PDF-Standardanwendungen für den Browser dürfen Privatanwender kostenlos nutzen, unter anderem den einfachen Editor CIB pdf standalone sowie dessen KI-gestützten Kompagnon CIB doXiview, der PDF-Inhalte automatisiert bearbeitet. Beim erstgenannten bleiben die Dokumente lokal auf dem Gerät des Anwenders. 

Letzterer lädt sie in die Cloud hoch, weil die Layout- und Zeichenerkennung (OCR) nicht lokal läuft; er unterstützt vor allem beim Schwärzen sensibler Daten und hilft, Formulare und Rechnungen schneller zu erstellen und zu verarbeiten. Sämtliche Inhalte werden nach der Verarbeitung vom Server gelöscht. Ab 2024 will der Hersteller Abomodelle für private und kleinere Unternehmen einführen. Bis dahin können sowohl Privatleute als auch Gewerbetreibende die Software kostenlos ausprobieren.

CIB Pop

Das Schwärzen ist sehr anwenderfreundlich umgesetzt: Ein Klick auf „Daten anonymisieren“ startet die Suche nach sensiblen Informationen, woraufhin CIB doXiview passende Stellen im Dokument markiert und die Treffer zusätzlich rechts in der Werkzeugleiste listet.

Dort kann man sie einzeln oder gesammelt deaktivieren. Praktisch: Die Ergebnisse werden nach Kategorien sortiert. Wer also Namen und Adressen nicht schwärzen möchte, Kontodaten aber schon, der kann diese Entscheidung mit nur einem Klick für das gesamte Dokument treffen. Auch auf Personalausweis- und Reisepass-IDs ist die KI trainiert, auf Sozialversicherungsnummern (noch) nicht.

In unseren Tests erkannte die Funktion Konto- und Adressdaten recht zuverlässig, aber hin und wieder fiel doch mal ein Name oder ein Firmenname durchs Raster. Man sollte den Schwärzvorschlag in jedem Fall aufmerksam prüfen. Textstellen, die die KI übersehen hat, kann man händisch zum Schwärzen markieren. Zusätzlich wäre eine Funktion wünschenswert, mit der man eigene Suchmuster – etwa für Sozialversicherungsnummern oder Aktenzeichen – definieren kann. Die OCR agiert sehr kooperativ. Unsichere Kandidaten markiert sie in gelber Farbe und legt sie in einem eigenen Dialogfeld zur Überprüfung vor: Dort hangelt man sich rasch von Wort zu Wort, die Originaltexte werden während dieser Korrekturschleife vergrößert eingeblendet.

Die Funktion „Rechnung erstellen“ analysiert den Inhalt einfacher PDF-Rechnungen; zudem markiert und extrahiert sie die Rechnungsdaten und erstellt daraus eine ZUGFeRD-Rechnung mit strukturiertem XML.

Die Erkennungsquote variiert stark, in gescannten Dokumenten wurde die Software im Test häufiger fündig als in nativen PDFs. Fehlende Posten lassen sich aber rasch per Markierstift in die zugehörigen Felder übertragen. Das Bezahlen vereinfacht die Technik ebenfalls, indem sie Überweisungsinformationen aus Bild- oder PDF-Dokumenten extrahiert und in einen GiroCode beziehungsweise in SEPA XML wandelt.

CIB doXiview automatisiert repetitive Arbeiten an PDF-Dokumenten und nimmt dem Nutzer dadurch lästige Routinen ab. Insbesondere nach dem Schwärzen sensibler Daten muss allerdings ein Mensch am Ende das Ergebnis kontrollieren. Dabei unterstützt die Software mit gut aufbereiteten Informationen und praktischen Korrekturhilfen. Das Material wird auf den Servern des Anbieters verarbeitet, laut Datenschutzerklärung immerhin innerhalb Europas, und anschließend gelöscht.

Dieser Artikel erschien in c’t 18/2023.

Andrea Trinkwalder

Redakteurin / c't - Magazin für Computertechnik