REST API: Unterschied zwischen den Versionen
Stefan (Diskussion | Beiträge) |
Stefan (Diskussion | Beiträge) |
||
Zeile 46: | Zeile 46: | ||
Der Job hat z.Z einen Befehl. Mit diesem werden in einem einzigen Schritt Dokumente zur Feldextraktion zu Azure geladen, welche in Echtzeit synchron verarbeitet werden. Sobald die Auswertung abgeschlossen ist, werden die ermittelten Informationen zurück gesendet und vom Job ausgewertet und in die Metadaten des Objektes übertragen. Die Verarbeitung eines Dokumentes dauert in der Regel zwischen 10-15 Sekunden. | Der Job hat z.Z einen Befehl. Mit diesem werden in einem einzigen Schritt Dokumente zur Feldextraktion zu Azure geladen, welche in Echtzeit synchron verarbeitet werden. Sobald die Auswertung abgeschlossen ist, werden die ermittelten Informationen zurück gesendet und vom Job ausgewertet und in die Metadaten des Objektes übertragen. Die Verarbeitung eines Dokumentes dauert in der Regel zwischen 10-15 Sekunden. | ||
==== '''API Konfiguration''' ==== | ==== '''API Konfiguration''' ==== | ||
Zeile 54: | Zeile 55: | ||
[[Datei:azure_api.png]] | [[Datei:azure_api.png]] | ||
==== '''API Befehle''' ==== | ==== '''API Befehle''' ==== | ||
Zeile 73: | Zeile 76: | ||
Pro Objekt kann nur eine Datei hochgeladen werden! Wenn sich mehrere Dateien in dem Ordner befinden, so wird die erste der natürlichen Sortierreihenfolge genommen. | Pro Objekt kann nur eine Datei hochgeladen werden! Wenn sich mehrere Dateien in dem Ordner befinden, so wird die erste der natürlichen Sortierreihenfolge genommen. | ||
'''Übergreifende Einstellungen''' | '''Übergreifende Einstellungen''' | ||
Zeile 85: | Zeile 89: | ||
[[Datei:azure_befehl1.png]] | [[Datei:azure_befehl1.png]] | ||
'''Zuordnung von Feldern''' | '''Zuordnung von Feldern''' | ||
Für jedes Metadatum ist eine Zeile mit der Zuordnung zum entsprechenden Feld des AI Models in die Tabelle einzufügen. Die grüne Taste + fügt eine Zeile hinzu. Die rote Taste x löscht die ausgewählte Zeile. | |||
Wenn ein Metadatum nicht fehlen darf, also ein Pflichtfeld ist, wähle das Häckchen bei 'Ist Pflicht' an. | |||
Für jedes Feld kann eine eigene Kofidenzeinstellung eingetragen werden. Diese kommen nur zur Geltung, wenn die globale Konfidenz deaktiviert wurde! | |||
Über die Taste 'Globale Konfidenz vererben' kann der Wert aus dem globalen Konfidenz Feld auf alle Zeilen der Tabelle übertragen werden. Sinnvoll für den Fall, dass nur wenige Felder eine Abweichende Einstellung erhalten sollen, oder wenn die Werte rasch alle korrigiert werden müssen. | |||
[[Datei:azure_befehl1a.png]] | [[Datei:azure_befehl1a.png]] | ||
Zeile 92: | Zeile 105: | ||
'''Zuordnung von Tabellen''' | '''Zuordnung von Tabellen''' | ||
Grundsätzlich die gleiche Funktionalität wie für Felder. Hier wird jedoch der gesammte Inhalte eine Tabelle in ein Metadatumsfeld übertragen. | |||
Die Formatierung als Tabelle wird dabei folgendermassen beibehalten: | |||
'Wert' TRENNZEICHEN 'Wert' TRENNZEICHEN 'Wert' ZEILENUMBRUCH | |||
'Wert' TRENNZEICHEN 'Wert' TRENNZEICHEN 'Wert' ZEILENUMBRUCH | |||
'Wert' TRENNZEICHEN 'Wert' TRENNZEICHEN 'Wert' ZEILENUMBRUCH | |||
Wähle das entsprechend gewünschte Trennzeichen aus der Dropdownliste. Standardtrennzeichen ist der Tabulator (TAB). | |||
[[Datei:azure_befehl1b.png]] | [[Datei:azure_befehl1b.png]] |
Version vom 11. Oktober 2024, 11:19 Uhr
- Mantiseinträge
3212
- Systemtyp
69
- Eintrittsinvarianz
- JA
Beschreibung
OJOHZDORestApi
Wurde als Pilotprojekt für die Parashift API entwickelt und wird aktuell nur im Zusammenhang mit AI Feldextraktion von Dokumenten verwendet.
Die verfügbaren API's werden nun auf Micorsoft Azure weiterentwickelt.
Der Arbeitsschritt stellt eine Verbindung zu einer WEB-API her, und führt von der API zur verfügung gestellte Befehle aus.
Damit können z.B.:
- Dateien hochgeladen werden
- Metadaten übermittelt (aktuell nur abholung) werden
- Externe Prozesse verfolgt oder gesteuert werden
Weitere Zugehörige Arbeitsschritte
Quittierung - Warten Schritt, welcher auf eine Bestätigung der Gegenstelle wartet. z.B. wenn alle Metadaten bereistehen.
Konfiguration
Das Konfigurationsfenster besteht jeweils aus zwei Teilen:
- Auswahl und Konfiguration des API Anbieter
- Auswahl und Konfiguration eines verfügbaren API Befehls
Die Konfiguration ist je nach Anbieter unterschiedlich. In der Regel verlangt jeder Anbieter eine Authentifizierung und Authorisierung. Dies wird meistens in Form einers API-Keys (Token) gehandhabt.
Ein Wechsel zwischen Anbieter und/oder Befehlen hat die Löschung der aktuellen Konfiguration zur Folge und muss deshalb zusätzlich bestätigt werden.
Verfügbare Anbieter
Azure AI Dokumente Feldextraktion
Dies ist eine Cognitive Service Anwendung von Microsoft Azure zur AI unterstützen Erkennung von Dokumenteninhalten.
Hilfe zur Konfiguration von Azure siehe: Anleitung für Azure Document Intelligence
Der Job hat z.Z einen Befehl. Mit diesem werden in einem einzigen Schritt Dokumente zur Feldextraktion zu Azure geladen, welche in Echtzeit synchron verarbeitet werden. Sobald die Auswertung abgeschlossen ist, werden die ermittelten Informationen zurück gesendet und vom Job ausgewertet und in die Metadaten des Objektes übertragen. Die Verarbeitung eines Dokumentes dauert in der Regel zwischen 10-15 Sekunden.
API Konfiguration
Die API verlangt den Endpunkt URL (API Pfad) und den API Key der zugehörigen Document Intelligence Resource in Azure.
API Befehle
Dateien hochladen, Feldrückgaben in Metadaten speichern
Lädt ein Dokument vom Typ PDF, TIFF, JPG oder PNG zu einem AI Model eines Endpunktes von Azure Cognitive Services hoch. Es werden mehrseitige PDF und TIFF Dateien unterstützt.
Für mehrseitige Dokumente wird die Erstellung von PDFs empfohlen.
Die Dateien sollten dabei, unter der Berücksichtigung der Qualität, immer möglichst klein gehalten werden. Da von den Dokumenten auf Azure zuerst ein OCR gemacht werden muss, ist die OCR Erkennung der Massstab für die benötigte Qualität.
Maximale Dateigrösse: 50 MB
Maximale Auflösung: 10'000 x 10'000 Pixel
Damit die Dokumente zum zugehörigen trainierten AI Model gesendet werden können, ist eine Modelbezeichnung (Model ID) anzugeben. Anleitung zum Trainieren eines Extraktionsmodel
Der Befehl kann zwei unterschiedlliche Feldtypen verarbeiten; Einfache Felder, und/oder Tabellen.
Beim Training des Models werden den Feldern oder den Tabellen Namen vergeben. Damit die erkannten Feldinhalte den Metadaten zugewiesen werden können, ist in der Befehlskonfiguration eine Zuordnung (mapping) zu machen.
Pro Objekt kann nur eine Datei hochgeladen werden! Wenn sich mehrere Dateien in dem Ordner befinden, so wird die erste der natürlichen Sortierreihenfolge genommen.
Übergreifende Einstellungen
Die AI Model ID kann entweder als einen fixen Wert mit Anführungszeichen ( 'meinModel' ) oder mit Platzhalter und dem Verweis auf ein Metadatumsname des Objektes ( [metadatumMitModelID] ) angegeben werden. Wenn alle Objekte zum gleichen Model gehen, dann ist ein fixer Wert der richtige Weg. Wenn die Objekte unterschiedliche Dokumententypen enthalten, dann müssen diese zuvor klassifiziert bzw. segementiert worden sein. Der Dokumententyp sollte dabei gleich in einem entsprechenden Metadatum gespeichert werden. Idealerweise sind die Bezeichnung des Dokumententyps und der dazu zugehörigen AI ModelID identisch. Somit kann über dieses Metadatum dann gleich das richtige Model ausgewählt werden.
Der Dateityp ist entsprechend dem Dateiart der Dokumente einstellen. Es muss zwingend ein Typ angegeben werden.
Die Einstellung einer globalen Konfidenz über das aktivieren der Checkbox bewirkt, dass der daneben eingestellte Wert als Schwellenwert für alle Felder verwendet wird. Fällt ein Feld unter diesen Wert, dann geht das Objekt zum Fehler Ausgang und muss geprüft werden. Wenn keine globale Konfidenz ausgewählt wird, dann wird die Konfidenzeinstellung für jede einzelne Zuordnung individuell laut der Konfiguration in den Zuorndungstabellen für Felder und Tabellen berücksichtigt.
Soll keine Konfidenzprüfung stattfinden, dann ist der Wert für die globale Konfidenz auf 0.00 zu stellen und das häckchen zu setzen.
Zuordnung von Feldern
Für jedes Metadatum ist eine Zeile mit der Zuordnung zum entsprechenden Feld des AI Models in die Tabelle einzufügen. Die grüne Taste + fügt eine Zeile hinzu. Die rote Taste x löscht die ausgewählte Zeile.
Wenn ein Metadatum nicht fehlen darf, also ein Pflichtfeld ist, wähle das Häckchen bei 'Ist Pflicht' an.
Für jedes Feld kann eine eigene Kofidenzeinstellung eingetragen werden. Diese kommen nur zur Geltung, wenn die globale Konfidenz deaktiviert wurde!
Über die Taste 'Globale Konfidenz vererben' kann der Wert aus dem globalen Konfidenz Feld auf alle Zeilen der Tabelle übertragen werden. Sinnvoll für den Fall, dass nur wenige Felder eine Abweichende Einstellung erhalten sollen, oder wenn die Werte rasch alle korrigiert werden müssen.
Zuordnung von Tabellen
Grundsätzlich die gleiche Funktionalität wie für Felder. Hier wird jedoch der gesammte Inhalte eine Tabelle in ein Metadatumsfeld übertragen.
Die Formatierung als Tabelle wird dabei folgendermassen beibehalten:
'Wert' TRENNZEICHEN 'Wert' TRENNZEICHEN 'Wert' ZEILENUMBRUCH 'Wert' TRENNZEICHEN 'Wert' TRENNZEICHEN 'Wert' ZEILENUMBRUCH 'Wert' TRENNZEICHEN 'Wert' TRENNZEICHEN 'Wert' ZEILENUMBRUCH
Wähle das entsprechend gewünschte Trennzeichen aus der Dropdownliste. Standardtrennzeichen ist der Tabulator (TAB).
Parashift
API Konfiguration
Die API verlangt aktuell nur nach einem API Key. Dieser ist in das entsprechende Feld einzugeben und muss beim API Provider erstellt werden.
API Befehle
Dokumente upload
Lädt Dateien zu einem Parashift Workflow hoch. Bei PDF Dateien können zusätzlich die zu berücksichtigenden Seitenzahlen angegeben werden.
Felder:
Interne ID - Helper Objektidentifikation, Standard = DOSEQ. Aktuell möglich sind DOSEQ, DOSIGNATUR.
Objektname - Der Name für das Objekt, wird auf der Parashift Webseite entsprechend zur identifikation verwendet. Verwendet Platzhalter, erlaub sind [DOSEQ], [DOSIGNATUR] und [FILENAME]
Klassifizierungsscope - Weist ein Objekt direkt einer Klassifizierung zu. Überspringt die Erkennung des Dokumentetyps auf der Gegenseite. Ist der Scope bekannt, sollte das Feld entsprechend gefüllt werden. Erlaubt die Angabe mehrerer möglicher Scopes als Kommagetrennte Werte (e.g.: Einwohnerkarten, Haustierkarten, XYKarten)
Upload Konfiguration - Ist auf der Gegenstelle im Web-UI für den entsprechenden Workflow / Projekte zu Konfigurieren. Standard=client
Validierung erforderlich - Standard = nein. Gibt an, ob Objekte bei der Verarbeitung zusätzlich manuell validiert werden müssen.
Nicht für Training verwenden - Standard = ja. Gibt an, ob das Objekt für das Training des Erkennungsalgorhytmus verwendet werden soll.
Seitennummer(n) - Kommagetrennte Liste mit den zu berücksichtigenden Seitennummern. Bei PDF werden nur die angegebene Seitennummern aus einem Dokument übermittelt. Bei Bildern entsprechend nur die der Sortierreihenfolge nach Dateiname enstsprechenden Dateien. Standard = leer (alle Seiten senden)
Dateityp - Welche Art von Dateien werden beim Upload berücksichtigt?
Metadaten abholen
Holt die bei Parashift ermittelten Metadaten ab und speichert diese in den zugehörigen Attributen.
Varianten:
'Standard: Provider ID' - Verwendet zum finden des zugehörigen Dokuments die Dokumente ID der Gegenstelle (Feld = DO_ISQ). Diese ID ist eindeutig, es können somit mehrfache Objekte mit der gleichen Helper ID (DO_SEQ) existieren.
'Helper ID' - Verwendet zum finden des zugehörigen Dokuments die Objekt ID aus dem Helper (Feld = DO_SEQ)
WICHTIG: Wenn die DO_SEQ als ID zum ermitteln eines hochgeladenen Objektes verwendet wird, dann muss sichergestellt werden, dass dieses Objekt nicht mehrfach hochgeladen wurde. Bzw. es darf dann bei Parashift nicht mehr als ein Objekt gleichzeitig mit der selben Helper ID existieren. Alle duplikate müssen auf der Parashift Plattform zuerst gelöscht worden sein.
Konfiguration:
Für jedes zu importierende Metadatum muss eine Zeile in der Tabelle erstellt werden, welches den Attributsnamen im Helper mit dem Attributsnamen der Gegenstelle mapped. Gross-Kleinschreibung beachten!
Wird die Option "Ist Pflicht" ausgewählt, dann darf das empfangene Attribut nicht leer sein. Die Objekte gehen sonst in Fehlerstatus.