OCR Texterkennung: Unterschied zwischen den Versionen
Stefan (Diskussion | Beiträge) (6163 →Beschreibung) |
Stefan (Diskussion | Beiträge) |
||
Zeile 19: | Zeile 19: | ||
Es ist möglich bereits in diesem Schritt OCR Suchbegriffe zu definieren. Die gefundenen Werte werden in DO_OCRFUNSTELLENXML gespeichert und im Serverarbeitsschritt [[Assistiertes Metadatieren]] verwendet um die Werte zu markieren. Es ist möglich im OCR Serverjob und im Assistierten Metadatieren Suchbegriffe zu definieren, welche beim Anzeigen des Bildes zusammen geführt werden. | Es ist möglich bereits in diesem Schritt OCR Suchbegriffe zu definieren. Die gefundenen Werte werden in DO_OCRFUNSTELLENXML gespeichert und im Serverarbeitsschritt [[Assistiertes Metadatieren]] verwendet um die Werte zu markieren. Es ist möglich im OCR Serverjob und im Assistierten Metadatieren Suchbegriffe zu definieren, welche beim Anzeigen des Bildes zusammen geführt werden. | ||
Zu den Suchbegriffen kann ausserdem ein Bereich angegeben werden, in welchem der Begriff vorkommen muss. Der Bereich ist mit LINKS, OBEN, BREITE und der HÖHE in Pixel anzugeben. | Zu den Suchbegriffen kann ausserdem ein Bereich angegeben werden, in welchem der Begriff vorkommen muss. Der Bereich ist mit LINKS = X Pos, OBEN = Y Pos, BREITE und der HÖHE in Pixel anzugeben. | ||
==Essentielle Felder== | ==Essentielle Felder== |
Version vom 5. Mai 2023, 14:15 Uhr
- Mantiseinträge
2972
- Systemtyp
61
- Eintrittsinvarianz
- JA
Beschreibung
Führt eine Texterkennung auf Bilddateien (TIF, JPG, PNG) oder auf PDF Dateien, welche sich in dem zu verarbeitenden DO Ordner befinden, aus.
- Speichert den vollständigen OCR output im JSON Format in dem Feld DO_OCRJSON des verarbeiteten DOs.
- Speichert erkannten Text als Volltext in einem dafür definierten Attribut.
Es können entweder alle drei unterstützten Bilddateien berücksichtigt werden, oder nur einzelene Bilddateitypen, oder Typen gemischt. PDFs müssen separat verarbeitet werden.
Für die OCR Erkennung können eine oder mehrere Sprachen ausgewählt werden. Dies unterstützt insbesondere die richtige Erkennung von Diakritischen Zeichen (Akzente usw.) Idealerweise wird genau die Sprache ausgwählt, in welcher der Text verfasst ist. Beim verwenden mehrerer Wörterbüchern kann es zu Konflikten, bzw. falsch interpretierten Zeichen kommen.
Es ist möglich bereits in diesem Schritt OCR Suchbegriffe zu definieren. Die gefundenen Werte werden in DO_OCRFUNSTELLENXML gespeichert und im Serverarbeitsschritt Assistiertes Metadatieren verwendet um die Werte zu markieren. Es ist möglich im OCR Serverjob und im Assistierten Metadatieren Suchbegriffe zu definieren, welche beim Anzeigen des Bildes zusammen geführt werden. Zu den Suchbegriffen kann ausserdem ein Bereich angegeben werden, in welchem der Begriff vorkommen muss. Der Bereich ist mit LINKS = X Pos, OBEN = Y Pos, BREITE und der HÖHE in Pixel anzugeben.
Essentielle Felder
HZ_BILDVSRSANZAHL Checkbox: OCR im JSON Format sichern
HZ_REPORTNUMMER Checkbox: OCR im Volltext Format im angegebenen Attributsfeld sichern
HZ_METAWERTFELD Attributsfeld für den OCR Volltext. Pflicht wenn OCR im Volltext sichern ausgewählt.
HZ_FORMEL Speichert die Suchbegriff Konfiguration