KI Bearbeitung

Aus Helper
Zur Navigation springen Zur Suche springen
Mantiseinträge
 3614
Systemtyp
 80

OJOHZDOKIBearbeitung

Beschreibung

Ermöglicht die Auswertung von Text und Bilddateien über verschiedene KI Modelle und Endpunkte. Unterstützt werden PDF Dateien, sowie JPEG und PNG Bilddateien.

Es können verschiedene Anbieter, deren Endpunkte und API Schnittstellen angesprochen werden. Web-API, Hosted oder bereitgestellt in lokaler Infrastruktur. Als API wird die OpenAI API in der neuesten Version empfohlen.

Der Serverjob macht genau einen Aufruf mit einer Anfrage.

Es gibt in der Konfiguration einen Sytstem-Prompt und einen User-Prompt, wobei der User-Prompt dem Chatprompt bei Chatbasierten LLM Applikationen entspricht. Dieser ist hier in der Regel eher zweitrangig.

Der System-Prompt definiert die KI strikt als funktionales Werkzeug: Er legt ihr Verhalten, ihre Aufgaben, Regeln und Einschränkungen fest und begrenzt den Interpretationsspielraum klar. Der User-Prompt übernimmt darauf aufbauend ausschliesslich die konkrete Anfrage zur Auswertung des jeweiligen Dokuments.

Für das Speichern der Ausgabe aus den Abfragen in Metadatenfeldern, ist die Angabe eines fixen Schemas notwendig. Dabei muss der Name des Schemaelements mit dem Metadatumsnamen Feld übereinstimmen, in welches das Resultat abgefüllt werden soll.


Konfiguration

API

In diesem Abschnitt wird die Verbindung zum KI-Anbieter eingerichtet.

Feld Beschreibung
KI Anbieter Bezeichnung des API-Anbieters, z. B. Azure OpenAI oder OpenAI. Dient zur Identifikation und Auswahl der richtigen Verbindungslogik.
API Endpunkt Spezifischer API-Pfad, der angesprochen wird. Empfohlen wird /responses (neueste Version). Alternativ /chat/completions für ältere oder kompatible Anbieter.
URL Stamm-URL des API-Endpunkts, z. B. https://api.openai.com/v1 oder die URL einer Azure-Instanz.
API-Key Geheimer Schlüssel zur Authentifizierung gegenüber dem Anbieter. Wird direkt beim Anbieter bezogen und muss vertraulich behandelt werden.
KI Modell Name des zu verwendenden KI-Modells, z. B. gpt-4o, gpt-4o-mini oder ein Azure-Deployment-Name.

Hinweis: Für Azure OpenAI ist die Basis-URL anbieterabhängig und enthält in der Regel den Azure-Ressourcennamen. Endpunkt und Modell müssen mit dem jeweiligen Deployment in Azure übereinstimmen.


Extraktionanweisungen

Hier werden die Anweisungen definiert, die der KI mitgeteilt werden, was sie aus dem Dokument extrahieren soll.

System-Prompt

Der System-Prompt ist die wichtigste Konfiguration. Er definiert das Verhalten der KI vollständig und legt fest:

  • welche Art von Dokument analysiert wird,
  • welche Informationen extrahiert werden sollen,
  • in welchem Format die Antwort zurückgegeben werden muss,
  • welche Regeln und Einschränkungen gelten (z. B. keine Werte erfinden, nur extrahieren was explizit vorhanden ist).

Der System-Prompt wird als Rolle developer oder system an die API übergeben. Es empfiehlt sich, den hier gezeigten Prompt als Basis zu verwenden, entsprechend anzupassen und im Abschnitt ## Extraktionsanweisungen die dokumenttypspezifischen Anweisungen einzutragen.

Beispiel:

Du bist eine Engine zur Analyse von Dokumenten. Deine Aufgabe ist es, Informationen aus dem bereitgestellten Dokument zu extrahieren und als JSON zurückzugeben, das exakt dem im Request definierten Schema entspricht.

## Regeln
- Extrahiere nur Informationen, die im Dokument explizit vorhanden sind.
- Triff keine Annahmen und leite keine Werte ab.
- Wenn ein Feld nicht gefunden werden kann, setze es auf null.
- Gib ausschließlich die im Schema definierten Felder zurück.
- Gib keine Erklärungen, Kommentare oder zusätzlichen Text aus.
- Betrachte mehrseitige Dokumente als eine Einheit.

## Confidence
Wenn im Schema ein entsprechendes Feld vorhanden ist:
- HIGH: Wert ist eindeutig und klar lesbar
- MEDIUM: Wert ist vorhanden, aber nicht eindeutig oder leicht interpretativ
- LOW: Wert ist unsicher oder nur teilweise vorhanden
- NONE: Kein Wert gefunden → zugehöriges Feld ist null

## Fehlerfall
Falls das Dokument nicht verarbeitet werden kann oder keinen Text oder erkennbaren Inhalt enthält, gib stattdessen einer der folgenden zum Fehler passenden Werte in das feld fehlerbeschreibung im json schema aus.

Mögliche Codes:
- NO_DOCUMENT
- UNREADABLE
- WRONG_FORMAT
- NO_CONTENT
- OUT_OF_SCOPE

## Extraktionsanweisungen
Siehe weitere Anweisung in den jeweiligen Schemabemerkungen
Extrahiere aus Rechnungen:
- Vorname und Nachname der angeschriebenen Person
- Ort aus der Anschrift
- Rechnungstotal
- usw..

## Ausgabe
Gib genau ein gültiges JSON-Objekt zurück, das dem Schema entspricht, oder ein Fehlerobjekt.

User-Prompt

Der User-Prompt enthält die konkrete, dokumentbezogene Anfrage und wird direkt nach dem System-Prompt an die KI übergeben. In der Regel genügt ein kurzer Befehl wie:

Analysiere das Dokument und extrahiere die Informationen.

Für einfache Extraktionsaufgaben kann dieses Feld kurz gehalten werden, da die eigentlichen Anweisungen bereits vollständig im System-Prompt enthalten sind.


Feldzuordnungen

Das Schema definiert, welche Felder aus dem Dokument extrahiert und in welche Metadatenfelder sie geschrieben werden sollen.

Jedes Schema-Element besteht aus drei Angaben:

Spalte Beschreibung
Name Eindeutiger Bezeichner des Feldes. Muss exakt mit dem Namen des Ziel-Metadatenfelds übereinstimmen.
Typ Datentyp des extrahierten Werts. Mögliche Werte: string, number, integer, boolean, object, array.
Beschreibung Weitere Erklärung für die KI, was zu extrahieren ist und wo sich die Information im Dokument befindet, oder wie sie zu formatieren ist (Datum, Uhrzeit, Währung). Je präziser, desto besser das Ergebnis.

Beispiel:

Name Typ Beschreibung
name string Nachname der Person aus der Anschrift oben rechts.
vorname string Vorname der Person aus der Anschrift oben rechts.
titel1 string Erste Überschrift im Dokument, erkennbar an grösserer Schriftformatierung.

Wichtig: Wenn ein Wert im Dokument nicht gefunden wird, gibt die KI null zurück. Es werden keine Werte erfunden.


Modelparameter

Die Modellparameter steuern das Verhalten des KI-Modells bei der Verarbeitung. Für Extraktionsaufgaben empfehlen sich niedrige Kreativitätswerte. Ein Tokenlimit für die Ausgabe kann unter anderem bei Halluzinationen der KI helfen, nicht endlosen text (Tokenkosten!) bis zum Tokenlimit des Modells auszugeben.

Es können vordefinierte Parameter aus der Dropdownliste im Feld des Parameternamens ausgewählt werden, oder eigene Parameternamen eingetragen werden.


Parameter Empfohlener Wert Beschreibung
temperature 0.1 Kontrolliert die Zufälligkeit der Antwort. Niedrige Werte (nahe 0) liefern konsistentere, deterministischere Ergebnisse – ideal für strukturierte Extraktion.
top_p 1.0 Alternativer Sampling-Parameter. In Kombination mit niedriger Temperature auf 1.0 belassen.
max_output_tokens 4096 Maximale Anzahl Token in der Antwort. Für umfangreiche Schemata oder mehrseitige Dokumente ggf. erhöhen.

Hinweis: Bei der Verwendung des Endpunkts /chat/completions heisst der Parameter max_tokens statt max_output_tokens.


Testfenster

Das Testfenster ermöglicht es, die aktuelle Konfiguration direkt mit einem Dokument zu testen, ohne den regulären Workflow ausführen zu müssen.

Vorgehensweise:

  1. Dokument (PDF, JPEG oder PNG) über die Dateiauswahl laden.
  2. Anfragetext leer lassen oder einfach "Dokument analysieren" eingeben.
  3. Auf Anfrage senden klicken.
  4. Die Antwort der KI wird im rechten Bereich des Fensters angezeigt – entweder als JSON-Objekt (bei erfolgreicher Extraktion) oder als Fehlerobjekt mit Fehlercode.