OCR Texterkennung
- Mantiseinträge
2972
- Systemtyp
61
- Eintrittsinvarianz
- JA
Beschreibung
Führt eine Texterkennung auf Bilddateien (TIF, JPG, PNG) oder auf PDF Dateien, welche sich in dem zu verarbeitenden DO Ordner befinden, aus.
- Speichert den vollständigen OCR output im JSON Format in dem Feld DO_OCRJSON des verarbeiteten DOs.
- Speichert erkannten Text als Volltext in einem dafür definierten Attribut.
- Speichert den erkannten Wert aus einer Suchformel in ein zu der Formel angegebenes Metadatum.
Es können entweder alle drei unterstützten Bilddateien berücksichtigt werden, oder nur einzelene Bilddateitypen, oder Typen gemischt. PDFs müssen separat verarbeitet werden.
Für die OCR Erkennung können eine oder mehrere Sprachen ausgewählt werden. Dies unterstützt insbesondere die richtige Erkennung von Diakritischen Zeichen (Akzente usw.) Idealerweise wird genau die Sprache ausgwählt, in welcher der Text verfasst ist. Beim verwenden mehrerer Wörterbüchern kann es zu Konflikten, bzw. falsch interpretierten Zeichen kommen.
Es ist möglich bereits in diesem Schritt OCR Suchbegriffe zu definieren. Die gefundenen Werte werden in DO_OCRFUNSTELLENXML gespeichert und im Serverarbeitsschritt Assistiertes Metadatieren verwendet um die Werte zu markieren. Es ist möglich im OCR Serverjob und im Assistierten Metadatieren Suchbegriffe zu definieren, welche beim Anzeigen des Bildes zusammen geführt werden. Zu den Suchbegriffen kann ausserdem ein Bereich angegeben werden, in welchem der Begriff vorkommen muss. Der Bereich ist mit LINKS = X Pos, OBEN = Y Pos, BREITE und der HÖHE in Pixel anzugeben.
OCR innerhalb Box
Wenn das Feld "Nur Regex" auf 2 gesetzt wird, werden alle Wörter im definierten Bereich (X Pos, Y Pos, Breite, Höhe) gefunden. Alle Wörter werden mit einem Leerschlag zusammengefügt. Dabei gehen Zeilenumbrüche verloren.
Geschwindigkeit/Dauer
OCR kann recht lange dauern. Hier einige Beispiele:
- Objekt 9781459 mit 807 Seiten, JPG-Dateien mit je ca. 400KB - 1100KB, 1640 Fundstellen, OCR-JSON von 78 MByte, Verarbeitungsdauer von 86 Std.
Essentielle Felder
HZ_BILDVSRSANZAHL Checkbox: OCR im JSON Format sichern
HZ_REPORTNUMMER Checkbox: OCR im Volltext Format im angegebenen Attributsfeld sichern
HZ_METAWERTFELD Attributsfeld für den OCR Volltext. Pflicht wenn OCR im Volltext sichern ausgewählt.
HZ_FILEVERHALTEN Checkbox: Werte in Metadaten schreiben. Sichert die erkannten Werte aus dem OCR in den bei den Suchformeln angegebenen Metadaten Feldern.
HZ_FORMEL Speichert die Suchbegriff Konfiguration