Unsere neuartige, textbasierte d-Class Technologie wurde an 3,8 Mio. Seiten von Bankdokumenten verteilt über 30 Dokumentenklassen an Personen-Ident-Dokumenten ausgiebig und erfolgreich getestet. Ca. die Hälfte des Gesamtbestandes waren die gesuchten Personen-Ident-Dokumente.

Projekt PIU (Personen-Identdokumente mit Unterschriftenextraktion)

Zielsetzung war, aus dem o.g. Gesamtbestand diejenigen Seiten vollautomatisch zu identifizieren, welche Personen-Identitätsnachweise enthalten und dort die Unterschriftenfelder zu extrahieren.

Die vorliegenden Dokumente enthielten die gesamte Praxispalette an Darstellungsarten:
- reine Formulare (z.B. Post-Ident-Formular),
- teilstrukturierte Dokumente (z.B. Ausweisdokumente mit fallweisen Unterschriftenfeldern)
- mehr textorientierte Dokumente (wie Heiratsurkunden, Familienbücher, Anschreiben)

Als besondere Randbedingunden waren gegeben:
- Images in unterschiedlichen Auflösungen (Mix von 147 dpi bis zu 300 dpi),
- Images in verschiedenen Kompressionsverfahren
- Images in stark unterschiedlicher Qualität
- Unterschiedliche Dokumentformate (DIN A6 - DIN A4, hoch und quer)

Zunächst wurde ein Katalog von 30 Zielklassen unterschiedlicher Personen-Ident-Dokumente und deren geometrischer Lage der Unterschriftenfelder definiert und ein Trainingsset von Musterdokumenten dieser Klassen gebildet.

Erster Vorgehensschritt war die vollautomatische Klassifikation der Seiten. Dazu setzten wir zwei völlig unterschiedliche Verfahren ein, nämlich
- die traditionelle imagebasierte Dokumentenklassifikation und
- unser völlig neuartiges, textbasiertes Verfahren statistischer Klassifikation "d-Class".

Im zweiten Schritt wurden die Unterschriftenfelder imagebasiert extrahiert.

Hohe Klassifikationsgüte entsteht auch aus dem Zusammenwirken sehr verschiedener Klassifikationsverfahren durch deren gegenseitige Verifikation der Ergebnisse, sprich der Abweisung falsch klassifizierter Seiten des einen Verfahrens durch das andere. Es ist also durchaus qualitätsfördernd, zwei oder mehr verschiedene Klassifkations-Engines einzusetzen.

Unser textbasiertes Klassifikationsverfahren "d-Class" setzt natürlich eine OCR-Verarbeitung der Dokumentenimages voraus, was jedoch unbedient vollautomatisch erfolgt. Da die textbasierte Klassifikation ca. 10-fach schneller als die imagebasierte Klassifikation erfolgt, relativiert sich der zeitliche Gesamtverarbeitungsaufwand.

Wie unsere Messungen zeigten, lag die imagebasierte Klassifikation im Bereich von 60 - 80 % richtig klassifizerter Seiten, das textbasierte "d-Class" zeigte hingegen durchweg Ergebnisse besser als 92 %, bei bestimmten Dokumentenklassen wurden sogar 99 % erreicht.