Cortex AI-Funktionen: Dokumente¶

Snowflake bietet fortgeschrittene AI-gestützte Dokumentenintelligenz-Funktionen im Rahmen von Cortex AI-Funktionen. Diese Funktionen helfen Ihnen bei der Verarbeitung, Analyse, Klassifizierung und Extraktion von Informationen aus einer Vielzahl von Dokumenttypen für Power-Analysen, Automatisierung und intelligente Anwendungen – und das alles mit einfachen SQL-Anweisungen. Dokumentfunktionen helfen Ihnen bei den folgenden Aufgaben:

Dokumente analysieren, um unstrukturierten Text und Layouts in strukturierten, durchsuchbaren und analysierbaren Inhalt umzuwandeln.
Strukturierte Informationen extrahieren (Entitäten, Tabellen oder Felder) aus Dokumenten.
Klassifizieren von Dokumenttypen, um nachgelagerte Workflows und Analysen zu unterstützen.

Die Funktionen der Cortex-Dokumentenverarbeitung können kombiniert werden, um RAG-Pipelines (Retrieval Augmented Generation), intelligente Such- und Chatbot-Systeme sowie umfangreiche Dokumentenanalysen zu erstellen. Die folgende Abbildung zeigt, wie die Funktionen der Cortex-Dokumentenverarbeitung ein zusammensetzbares Framework bilden, in dem Komponenten gemischt und angepasst werden können, um benutzerdefinierte Lösungen zu erstellen.

Zusammensetzbares Framework für Cortex-Dokumentenverarbeitungsfunktionen

Dokumentfunktionen¶

Die zentralen Cortex AI-Funktionen für die Dokumentenverarbeitung sind:

AI_PARSE_DOCUMENT: Konvertiert von Beginn an digitale oder gescannte Dokumente unter Beibehaltung von Layout und Kontext in ein Rich-Text-Format. Extrahiert optional Bilder aus Dokumenten. Ideal für die semantische Suche, RAG-Pipelines und Zusammenfassungs-Workflows. Funktioniert gut mit der Dokumentanalyse, die ein Verständnis des gesamten Dokumentinhalts erfordert.
AI_EXTRACT: Bietet eine hochwertige strukturierte Extraktion von Informationen aus Dokumenten. Versteht Text, Tabellen, Kontrollkästchen, Handschrift und andere visuelle Elemente. Ist auf das Extrahieren strukturierter Daten auf der Grundlage eines Schemas spezialisiert.
AI_COMPLETE: The most general-purpose AI Function, AI_COMPLETE generates text completions based on a prompt you provide, and so can be used for a wide variety of tasks involving extracting or transforming text from documents. An advantage of AI_COMPLETE is the ability to choose a model.

Die folgenden Textverarbeitungs-AI-Funktionen können verwendet werden, um aus Dokumenten extrahierten Text weiter zu analysieren oder zu transformieren.

AI_SENTIMENT: Analysiert die Stimmung von Textinhalten.
AI_TRANSLATE: Übersetzt Textinhalte in andere Sprachen.
SUMMARIZE: Erzeugt prägnante Zusammenfassungen von Textinhalten.

Anwendungsfälle¶

Cortex AI-Funktionen für die Dokumentenverarbeitung können zusammen oder einzeln verwendet werden, um eine Vielzahl von Anwendungsfällen abzudecken, und eignen sich gut für die beiden folgenden Anwendungsfälle:

Erstellen von RAG-Pipelines für Chatbots und Enterprise Search Services¶

Dokumente, die von verarbeitet werden AI_PARSE_DOCUMENT können von Cortex Search Services indiziert werden, die als Retrieval-Augmented Generation fungieren können (RAG) Engines, um die Antworten des Sprachmodells auf Benutzerabfragen zu verbessern. In diesem Szenario verwenden Sie den Cortex Search Service, um Dokumente zu finden, die sich auf die Abfrage beziehen, und übergeben diese Dokumente dann an AI_COMPLETE als Teil der Eingabeaufforderung, um kontextbezogene Antworten zu generieren.

Erstellen von Dokumentenverarbeitungspipelines zur Optimierung von Workflows und Analysen¶

Cortex AI-Funktionen für die Dokumentenverarbeitung helfen Ihnen mit modularen Komponenten beim Aufbau intelligenter, flexibler und skalierbarer Dokumentenverarbeitungspipelines. Eine solche Pipeline nimmt Dokumente in verschiedenen Formaten auf und wandelt sie in verwertbare Daten um, sodass Sie Workflows wie diese erstellen können:

Schemabasierte Extraktion: Wenden Sie ein Schema in natürlicher Sprache an, um Entitäten – von einzelnen Entitäten bis hin zu komplexen Tabellendaten – aus einer Menge von Dokumenten zu extrahieren
Fragen und Antworten zu Dokument: Stellen Sie Fragen zu einem Dokument in natürlicher Sprache.
Extraktion von Text und Layout: Erfassen von Dokumenttext (mit oder ohne Layout), um Entitäten zu extrahieren, Zusammenfassungen zu erstellen und Analysen unter Verwendung anderer AI-Funktionen durchzuführen.
Klassifizierung Bestimmen Sie den Dokumenttyp (z. B. „Rechnung“, „Vertrag“, „Bericht“) beim Einlesen von Daten, um jeden Typ an einen geeigneten Verarbeitungs-Workflow weiterzuleiten.
Erstellen einer Modell-Registry zur Freigabe von benutzerdefinierten Extraktions- und Klassifizierungsmodellen: In einer Modell-Registry werden Modelle zur Extraktion von Dokumenten gespeichert, die für die in Ihrer Organisation spezifischen Anwendungsfälle angepasst sind. Die Wiederverwendung dieser Modelle über Teams hinweg spart Zeit und Mühe.