AI_COMPLETE mit Dokumenten¶
Die Funktion AI_COMPLETE von Cortex ist eine allgemeine AI-Funktion, die in PDF, Microsoft Word und anderen Dokumentdateiformaten gespeicherte Daten verstehen kann. Sie können mit AI_COMPLETE eine Vielzahl von Aufgaben zur Extraktion von Dokumentdaten ausführen, wie z. B.:
Beantworten von Fragen mithilfe von Daten in Graphen und Diagrammen.
Ermitteln von Beziehungen zwischen Diagrammen und Dokumenttext.
Zusammenfassen des Dokumentinhalts in einer bestimmten Frage.
Extrahieren von Entitäten aus Dokumenten.
Ein Vorteil von AI_COMPLETE gegenüber anderen:doc:AI Funktionen zur Dokumentenverarbeitung <ai-documents> ist die Möglichkeit, ein Modell auszuwählen, sodass Sie das beste Modell für Ihre spezielle Dokumentenverarbeitungsaufgabe verwenden können.
Verarbeitung von Dokumenten mit AI_COMPLETE¶
Die Funktion COMPLETE verarbeitet Dokumentdateien, die in einem internen Snowflake-Stagingbereich oder einem externen Stagingbereich gespeichert sind. Der Vervollständigungs-Prompt kann auf ein einzelnes Dokument oder auf mehrere Dokumente verweisen. Sie vergleichen beispielsweise die Korrektheit einer Übersetzung von Marketingmaterial, indem Sie die ursprünglichen und übersetzten Dokumente als Eingabe für die Funktion bereitstellen, zusammen mit einem Prompt, in dem das Modell aufgefordert wird, die Übersetzungsqualität zu bewerten.
Wenn Sie die Funktion aufrufen, müssen Sie das zu verwendende Modell und einen Prompt angeben. Der Prompt sollte Anweisungen zusammen mit einer FILE-Objektreferenz für jedes Dokument umfassen, das Sie verarbeiten möchten. Beispiel-Prompts und -Vervollständigungen finden Sie unter ` Beispiele`_ und die Syntax von Funktionsaufrufen unter AI_COMPLETE (Prompt-Objekt).
Eingabeanforderungen¶
AI_COMPLETE ist sowohl für digital erstellte als auch für gescannte Dokumente optimiert. In der folgenden Tabelle sind die Beschränkungen und Anforderungen für Eingabedokumente aufgeführt:
Unterstützte Dateitypen |
Alle Modelle: .txt, .md, .pdf
Claude-Modelle: .txt, .md, .pdf, .doc, .docx, .xls, .xlsx, .csv, .xhtml
|
|---|---|
Stagingbereich-Verschlüsselung |
Serverseitige Verschlüsselung: |
Datentyp |
FILE-Objekt |
Bemerkung
Die Verarbeitung von Dateien aus Stagingbereichen mit AI_COMPLETE ist derzeit nicht mit kundenspezifischen Netzwerkrichtlinien kompatibel.
Beispiele¶
Die folgenden Beispiele veranschaulichen die Verwendung von AI_COMPLETE, um drei gängige Anwendungsfälle zu verarbeiten: Fragen und Antworten für Diagramme, kontextbezogene Dokumentenzusammenfassung und Erkundung technischer Berichte.
Beispiel für Fragen und Antworten für Diagramme¶
Das folgende Beispiel verwendet das Claude Opus 4-Modell von Anthropic, um Daten zu analysieren, die in einem Diagramm im Kontext des Dokuments hdr2023-24snapshoten.pdf dargestellt sind, das im Stagingbereich @docs gespeichert ist.
Antwort:
Beispiel für die kontextbezogene Dokumentenzusammenfassung¶
Das folgende Beispiel verwendet das Claude Sonnet 4-Modell von Anthropic, um die Zusammenfassung eines rechtlichen Textes mit einem komplexen Layout zu extrahieren. Das Dokument``CELEX_32008R1008_EN_TXT.pdf`` ist im Stagingbereich @docs gespeichert; der Prompt schränkt den Zusammenfassungskontext ein.
Antwort:
Erkundung von technischen Berichten¶
Das folgende Beispiel verwendet das Gemini 3 Pro-Modell, um die Einsatz- und Wirkungsdaten zu analysieren, die in den Diagrammen eines technischen Berichts enthalten sind. Das Dokument 75mm-M3-spec-booklet-MK-VI.pdf ist im Stagingbereich @docs gespeichert.
Antwort:
Unterstützte Modelle und Beschränkungen¶
Alle für Snowflake Cortex verfügbaren Modelle haben eine Beschränkung bei der Gesamtzahl der Eingabe- und Ausgabe-Token, die als Kontextfenster des Modells bezeichnet werden. Die Größe des Kontextfensters wird in Token gemessen. Eingaben, die die Beschränkung des Kontextfensters überschreiten, führen zu einem Fehler.
Bei Textmodellen stehen Token in der Regel für etwa vier Zeichen Text. Die Wortanzahl, die einem Limit entspricht, liegt daher etwas unter dem in Token angegebenen Kontextfenster. Bei Bildmodellen hängt die Anzahl der Token pro Dokument von der Architektur des Visionsmodells ab. Token innerhalb eines Prompts (z. B. „Fasse dieses Dokument zusammen:“) tragen ebenfalls zum Kontextfenster des Modells bei.
Modell |
Kontextfenster (Token) |
Dateitypen |
Dateigröße |
Dokumente pro Prompt |
|---|---|---|---|---|
|
1.000.000 |
.pdf, .txt, .md |
10MB, maximal 900 Seiten |
20 |
|
200,000 |
.txt, .md, .pdf, .doc, .docx, .xls, .xlsx, .csv, .xhtml |
4.5MB |
5 |
|
200,000 |
.txt, .md, .pdf, .doc, .docx, .xls, .xlsx, .csv, .xhtml |
4.5MB |
5 |
|
200,000 |
.txt, .md, .pdf, .doc, .docx, .xls, .xlsx, .csv, .xhtml |
4.5MB |
5 |
|
200,000 |
.txt, .md, .pdf, .doc, .docx, .xls, .xlsx, .csv, .xhtml |
4.5MB |
5 |
|
200,000 |
.txt, .md, .pdf, .doc, .docx, .xls, .xlsx, .csv, .xhtml |
4.5MB |
5 |
|
200,000 |
.txt, .md, .pdf, .doc, .docx, .xls, .xlsx, .csv, .xhtml |
4.5MB |
5 |
Anforderungen an die Zugriffssteuerung¶
Um die Funktion AI_COMPLETE zu verwenden, muss ein Benutzer mit der Rolle ACCOUNTADMIN dem Benutzer, der die Funktion aufruft, die Datenbankrolle SNOWFLAKE.CORTEX_USER erteilen. Siehe Cortex LLM-Berechtigungen für weitere Informationen.
Benutzende müssen auch READ-Zugriff auf den Stagingbereich und die zu verarbeitende Datei haben.
Hinweise zu Kosten¶
Die Kosten werden anhand Gesamtzahl der verarbeiteten Token bestimmt, nicht anhand der Dateigröße. Beim Hochladen von Dokumenten wird der Textinhalt extrahiert und in Token konvertiert; visuelle Segmente der Seite (Bilder) werden ebenfalls in Token umgewandelt. Die Abrechnung basiert auf der Summe der Eingabetoken (Text plus Bilder, die das Modell liest) und der Ausgabetoken (Text, den das Modell generiert).
Die tatsächliche Anzahl der Token variiert je nach der zugrunde liegenden Architektur eines Modells sowie der Zusammensetzung und Struktur des Dokuments. Inhalte wie dichte Tabellen, Tabellenkalkulationen, strukturierte Daten, Code, wiederholte Kopf- und Fußzeilen oder mit OCR erfasster Text können die Anzahl der Token erhöhen. Umgekehrt können bildintensive Dokumente oder folienbasierte Dokumente mit nur minimalem extrahierbarem Text zu einer geringeren Anzahl von Token führen.
Bemerkung
Die Funktion AI_COUNT_TOKENS unterstützt derzeit keine Dokumenteingaben in multidimensionalen Modellen.
Auswählen eines Modells¶
Die Benchmark MMLongBench-Doc wird verwendet, um die Fähigkeiten von Modellen bei der multimodalen Verarbeitung und beim Verständnis von Langzeitkontext zu bewerten, einschließlich des Abrufs von Informationen über mehrere Seiten hinweg.
Modell |
MMLongBench-Doc-Bewertung |
|---|---|
claude-3-5-sonnet |
46,8 % |
claude-3-7-sonnet |
52,8 % |
claude-4-sonnet |
50,2 % |
claude-4-opus |
53,0 % |
claude-haiku-4-5 |
48,9 % |
claude-sonnet-4-5 |
61,4 % |
claude-opus-4-5 |
63,8 % |
claude-sonnet-4-6 |
62,3 % |
gemini-3-pro |
60,5 % |
Regionale Verfügbarkeit¶
Siehe Regionale Verfügbarkeit.
Fehlerbedingungen¶
Snowflake Cortex AI_COMPLETE kann die folgenden Fehlermeldungen erzeugen:
Meldung |
Erläuterung |
|---|---|
_COMPLETE_WITH_PROMPT_HISTORY_LLM$V1 with remote service error: 400 „invalid request parameters: unsupported document content type: application/vnd.ms-excel“ |
Die ausgewählte Datei eines nicht unterstützten Typs (in diesem Beispiel eine Microsoft Excel-Datei). Nur Claude-Modelle unterstützen Excel-Dateien. |
Request failed for external function _COMPLETE_WITH_PROMPT_HISTORY_LLM$V1 with remote service error: 400 ‚„invalid request parameters: File data exceeds the limit of 10.00 MB for file prefix/file.pdf“ |
Die Dateigröße überschreitet das Limit (10MB in diesem Beispiel). |
Remote file ‚@docs/file.pdf‘ was not found. There are several potential causes. The file might not exist. The required credentials may be missing or invalid. If you are running a copy command, please make sure files are not deleted when they are being loaded or files are not being loaded into two different tables concurrently with auto purge option. |
Möglicherweise ein Fehler im Dateinamen. Bei Dateinamen wird zwischen Groß- und Kleinschreibung unterschieden. Oder die Datei wurde gelöscht. |
Fehler in sicherem Objekt |
Kann anzeigen, dass der Stagingbereich nicht existiert. Überprüfen Sie den Namen des Stagingbereichs und stellen Sie sicher, dass der Stagingbereich vorhanden und zugänglich ist. Achten Sie darauf, dass Sie am Anfang des Stagingbereichsnamens ein At-Zeichen (@) verwenden. Stellen Sie sicher, dass der Stagingbereich eine serverseitige Verschlüsselung verwendet. |
Request failed for external function COMPLETE$V6 with remote service error: 400 ‚„model "model_name" does not support given modality“ |
Das in der Anforderung angegebene Modell unterstützt keine Dokument- oder Textmodalität. |
Request failed for external function _COMPLETE_WITH_PROMPT with remote service error: 500 ‚„internal error“ |
Problem bei der Verarbeitung der Anforderung auf der Serverseite. Die Datei könnte beschädigt oder abgeschnitten sein. |
Rechtliche Hinweise¶
Die Datenklassifizierung der Eingaben und Ausgaben ist in der folgenden Tabelle aufgeführt.
Klassifizierung von Eingabedaten |
Klassifizierung von Ausgabedaten |
Benennung |
|---|---|---|
Usage Data |
Customer Data |
Die allgemein verfügbaren Funktionen sind abgedeckte AI-Features. Die Vorschaufunktionen sind Vorschau-AI-Features. [1] |
Weitere Informationen dazu finden Sie unter KI und ML in Snowflake.