KI Bearbeitung

Mantiseinträge

Systemtyp

OJOHZDOKIBearbeitung

Beschreibung

Ermöglicht die Auswertung von Text und Bilddateien über verschiedene KI Modelle und Endpunkte. Unterstützt werden PDF Dateien, sowie JPEG und PNG Bilddateien.

Es können verschiedene Anbieter, deren Endpunkte und API Schnittstellen angesprochen werden. Web-API, Hosted oder bereitgestellt in lokaler Infrastruktur. Als API wird die OpenAI API in der neuesten Version empfohlen.

Der Serverjob macht genau einen Aufruf mit einer Anfrage.

Es gibt in der Konfiguration einen Sytstem-Prompt und einen User-Prompt, wobei der User-Prompt dem Chatprompt bei Chatbasierten LLM Applikationen entspricht. Dieser ist hier in der Regel eher zweitrangig.

Der System-Prompt definiert die KI strikt als funktionales Werkzeug: Er legt ihr Verhalten, ihre Aufgaben, Regeln und Einschränkungen fest und begrenzt den Interpretationsspielraum klar. Der User-Prompt übernimmt darauf aufbauend ausschliesslich die konkrete Anfrage zur Auswertung des jeweiligen Dokuments.

Für das Speichern der Ausgabe aus den Abfragen in Metadatenfeldern, ist die Angabe eines fixen Schemas notwendig. Dabei muss der Name des Schemaelements mit dem Metadatumsnamen Feld übereinstimmen, in welches das Resultat abgefüllt werden soll.

Konfiguration

API

In diesem Abschnitt wird die Verbindung zum KI-Anbieter eingerichtet.

Feld	Beschreibung
KI Anbieter	Bezeichnung des API-Anbieters, z. B. `Azure OpenAI` oder `OpenAI`. Dient zur Identifikation und Auswahl der richtigen Verbindungslogik.
API Endpunkt	Spezifischer API-Pfad, der angesprochen wird. Empfohlen wird `/responses` (neueste Version). Alternativ `/chat/completions` für ältere oder kompatible Anbieter.
URL	Stamm-URL des API-Endpunkts, z. B. `https://api.openai.com/v1` oder die URL einer Azure-Instanz.
API-Key	Geheimer Schlüssel zur Authentifizierung gegenüber dem Anbieter. Wird direkt beim Anbieter bezogen und muss vertraulich behandelt werden.
KI Modell	Name des zu verwendenden KI-Modells, z. B. `gpt-4o`, `gpt-4o-mini` oder ein Azure-Deployment-Name.

Hinweis: Für Azure OpenAI ist die Basis-URL anbieterabhängig und enthält in der Regel den Azure-Ressourcennamen. Endpunkt und Modell müssen mit dem jeweiligen Deployment in Azure übereinstimmen.

Extraktionanweisungen

Hier werden die Anweisungen definiert, die der KI mitgeteilt werden, was sie aus dem Dokument extrahieren soll.

System-Prompt

Der System-Prompt ist die wichtigste Konfiguration. Er definiert das Verhalten der KI vollständig und legt fest:

welche Art von Dokument analysiert wird,
welche Informationen extrahiert werden sollen,
in welchem Format die Antwort zurückgegeben werden muss,
welche Regeln und Einschränkungen gelten (z. B. keine Werte erfinden, nur extrahieren was explizit vorhanden ist).

Der System-Prompt wird als Rolle developer oder system an die API übergeben. Es empfiehlt sich, den hier gezeigten Prompt als Basis zu verwenden, entsprechend anzupassen und im Abschnitt ## Extraktionsanweisungen die dokumenttypspezifischen Anweisungen einzutragen.

Beispiel:

Du bist eine Engine zur Analyse von Dokumenten. Deine Aufgabe ist es, Informationen aus dem bereitgestellten Dokument zu extrahieren und als JSON zurückzugeben, das exakt dem im Request definierten Schema entspricht.

## Regeln
- Extrahiere nur Informationen, die im Dokument explizit vorhanden sind.
- Triff keine Annahmen und leite keine Werte ab.
- Wenn ein Feld nicht gefunden werden kann, setze es auf null.
- Gib ausschließlich die im Schema definierten Felder zurück.
- Gib keine Erklärungen, Kommentare oder zusätzlichen Text aus.
- Betrachte mehrseitige Dokumente als eine Einheit.

## Confidence
Wenn im Schema ein entsprechendes Feld vorhanden ist:
- HIGH: Wert ist eindeutig und klar lesbar
- MEDIUM: Wert ist vorhanden, aber nicht eindeutig oder leicht interpretativ
- LOW: Wert ist unsicher oder nur teilweise vorhanden
- NONE: Kein Wert gefunden → zugehöriges Feld ist null

## Fehlerfall
Falls das Dokument nicht verarbeitet werden kann oder keinen Text oder erkennbaren Inhalt enthält, gib stattdessen einer der folgenden zum Fehler passenden Werte in das feld fehlerbeschreibung im json schema aus.

Mögliche Codes:
- NO_DOCUMENT
- UNREADABLE
- WRONG_FORMAT
- NO_CONTENT
- OUT_OF_SCOPE

## Extraktionsanweisungen
Siehe weitere Anweisung in den jeweiligen Schemabemerkungen
Extrahiere aus Rechnungen:
- Vorname und Nachname der angeschriebenen Person
- Ort aus der Anschrift
- Rechnungstotal
- usw..

## Ausgabe
Gib genau ein gültiges JSON-Objekt zurück, das dem Schema entspricht, oder ein Fehlerobjekt.

User-Prompt

Der User-Prompt enthält die konkrete, dokumentbezogene Anfrage und wird direkt nach dem System-Prompt an die KI übergeben. In der Regel genügt ein kurzer Befehl wie:

Analysiere das Dokument und extrahiere die Informationen.

Für einfache Extraktionsaufgaben kann dieses Feld kurz gehalten werden, da die eigentlichen Anweisungen bereits vollständig im System-Prompt enthalten sind.

Feldzuordnungen

Das Schema definiert, welche Felder aus dem Dokument extrahiert und in welche Metadatenfelder sie geschrieben werden sollen.

Jedes Schema-Element besteht aus drei Angaben:

Spalte	Beschreibung
Name	Eindeutiger Bezeichner des Feldes. Muss exakt mit dem Namen des Ziel-Metadatenfelds übereinstimmen.
Typ	Datentyp des extrahierten Werts. Mögliche Werte: `string`, `number`, `integer`, `boolean`, `object`, `array`.
Beschreibung	Weitere Erklärung für die KI, was zu extrahieren ist und wo sich die Information im Dokument befindet, oder wie sie zu formatieren ist (Datum, Uhrzeit, Währung). Je präziser, desto besser das Ergebnis.

Beispiel:

Name	Typ	Beschreibung
`name`	string	Nachname der Person aus der Anschrift oben rechts.
`vorname`	string	Vorname der Person aus der Anschrift oben rechts.
`titel1`	string	Erste Überschrift im Dokument, erkennbar an grösserer Schriftformatierung.

Wichtig: Wenn ein Wert im Dokument nicht gefunden wird, gibt die KI null zurück. Es werden keine Werte erfunden.

Modelparameter

Die Modellparameter steuern das Verhalten des KI-Modells bei der Verarbeitung. Für Extraktionsaufgaben empfehlen sich niedrige Kreativitätswerte. Ein Tokenlimit für die Ausgabe kann unter anderem bei Halluzinationen der KI helfen, nicht endlosen text (Tokenkosten!) bis zum Tokenlimit des Modells auszugeben.

Es können vordefinierte Parameter aus der Dropdownliste im Feld des Parameternamens ausgewählt werden, oder eigene Parameternamen eingetragen werden.

Parameter	Empfohlener Wert	Beschreibung
`temperature`	`0.1`	Kontrolliert die Zufälligkeit der Antwort. Niedrige Werte (nahe 0) liefern konsistentere, deterministischere Ergebnisse – ideal für strukturierte Extraktion.
`top_p`	`1.0`	Alternativer Sampling-Parameter. In Kombination mit niedriger Temperature auf `1.0` belassen.
`max_output_tokens`	`4096`	Maximale Anzahl Token in der Antwort. Für umfangreiche Schemata oder mehrseitige Dokumente ggf. erhöhen.

Hinweis: Bei der Verwendung des Endpunkts /chat/completions heisst der Parameter max_tokens statt max_output_tokens.

Testfenster

Das Testfenster ermöglicht es, die aktuelle Konfiguration direkt mit einem Dokument zu testen, ohne den regulären Workflow ausführen zu müssen.

Vorgehensweise:

Dokument (PDF, JPEG oder PNG) über die Dateiauswahl laden.
Anfragetext leer lassen oder einfach "Dokument analysieren" eingeben.
Auf Anfrage senden klicken.
Die Antwort der KI wird im rechten Bereich des Fensters angezeigt – entweder als JSON-Objekt (bei erfolgreicher Extraktion) oder als Fehlerobjekt mit Fehlercode.

KI Bearbeitung

Inhaltsverzeichnis

Beschreibung

Konfiguration