Cortex AI-Funktionen: Dokumente

Snowflake bietet fortgeschrittene AI-gestützte Dokumentenintelligenz-Funktionen im Rahmen von Cortex AI-Funktionen. Diese Funktionen helfen Ihnen bei der Verarbeitung, Analyse, Klassifizierung und Extraktion von Informationen aus einer Vielzahl von Dokumenttypen für Power-Analysen, Automatisierung und intelligente Anwendungen – und das alles mit einfachen SQL-Anweisungen. Dokumentfunktionen helfen Ihnen bei den folgenden Aufgaben:

  • Dokumente analysieren, um unstrukturierten Text und Layouts in strukturierten, durchsuchbaren und analysierbaren Inhalt umzuwandeln.

  • Strukturierte Informationen extrahieren (Entitäten, Tabellen oder Felder) aus Dokumenten.

  • Klassifizieren von Dokumenttypen, um nachgelagerte Workflows und Analysen zu unterstützen.

Die Funktionen der Cortex-Dokumentenverarbeitung können kombiniert werden, um RAG-Pipelines (Retrieval Augmented Generation), intelligente Such- und Chatbot-Systeme sowie umfangreiche Dokumentenanalysen zu erstellen. Die folgende Abbildung zeigt, wie die Funktionen der Cortex-Dokumentenverarbeitung ein zusammensetzbares Framework bilden, in dem Komponenten gemischt und angepasst werden können, um benutzerdefinierte Lösungen zu erstellen.

Zusammensetzbares Framework für Cortex-Dokumentenverarbeitungsfunktionen

Dokumentfunktionen

Die zentralen Cortex AI-Funktionen für die Dokumentenverarbeitung sind:

  • AI_PARSE_DOCUMENT: Konvertiert von Beginn an digitale oder gescannte Dokumente unter Beibehaltung von Layout und Kontext in ein Rich-Text-Format. Extrahiert optional Bilder aus Dokumenten. Ideal für die semantische Suche, RAG-Pipelines und Zusammenfassungs-Workflows. Funktioniert gut mit der Dokumentanalyse, die ein Verständnis des gesamten Dokumentinhalts erfordert.

  • AI_EXTRACT: Bietet eine hochwertige strukturierte Extraktion von Informationen aus Dokumenten. Versteht Text, Tabellen, Kontrollkästchen, Handschrift und andere visuelle Elemente. Ist auf das Extrahieren strukturierter Daten auf der Grundlage eines Schemas spezialisiert.

Andere Cortex AI Funktionen sind nützlich in Dokumentenverarbeitungs-Workflows. Sie können Bilder von Dokumentseiten direkt an diese Funktionen übergeben, oder Sie können den Text mit einer der oben genannten Haupt-Dokumentfunktionen extrahieren und eine der Funktionen verwenden, um diesen Text zu verarbeiten.

  • AI_COMPLETE: Die allgemeinste AI-Funktion (AI_COMPLETE) generiert Textvervollständigungen auf der Grundlage einer von Ihnen bereitgestellten Eingabeaufforderung und kann daher für eine Vielzahl von Aufgaben verwendet werden, die das Extrahieren oder Umwandeln von Text aus Dokumenten umfassen.

  • AI_CLASSIFY: Kategorisiert Textinhalt in von Ihnen definierte Klassen (z. B. Rechnung, Vertrag oder Bericht).

Die folgenden Textverarbeitungs-AI-Funktionen können verwendet werden, um aus Dokumenten extrahierten Text weiter zu analysieren oder zu transformieren.

  • AI_SENTIMENT: Analysiert die Stimmung von Textinhalten.

  • AI_TRANSLATE: Übersetzt Textinhalte in andere Sprachen.

  • SUMMARIZE: Erzeugt prägnante Zusammenfassungen von Textinhalten.

Anwendungsfälle

Cortex AI-Funktionen für die Dokumentenverarbeitung können zusammen oder einzeln verwendet werden, um eine Vielzahl von Anwendungsfällen abzudecken, und eignen sich gut für die beiden folgenden Anwendungsfälle:

Erstellen von RAG-Pipelines für Chatbots und Enterprise Search Services

Dokumente, die von verarbeitet werden AI_PARSE_DOCUMENT können von Cortex Search Services indiziert werden, die als Retrieval-Augmented Generation fungieren können (RAG) Engines, um die Antworten des Sprachmodells auf Benutzerabfragen zu verbessern. In diesem Szenario verwenden Sie den Cortex Search Service, um Dokumente zu finden, die sich auf die Abfrage beziehen, und übergeben diese Dokumente dann an AI_COMPLETE als Teil der Eingabeaufforderung, um kontextbezogene Antworten zu generieren.

Erstellen von Dokumentenverarbeitungspipelines zur Optimierung von Workflows und Analysen

Cortex AI-Funktionen für die Dokumentenverarbeitung helfen Ihnen mit modularen Komponenten beim Aufbau intelligenter, flexibler und skalierbarer Dokumentenverarbeitungspipelines. Eine solche Pipeline nimmt Dokumente in verschiedenen Formaten auf und wandelt sie in verwertbare Daten um, sodass Sie Workflows wie diese erstellen können:

  • Schemabasierte Extraktion: Wenden Sie ein Schema in natürlicher Sprache an, um Entitäten – von einzelnen Entitäten bis hin zu komplexen Tabellendaten – aus einer Menge von Dokumenten zu extrahieren

  • Fragen und Antworten zu Dokument: Stellen Sie Fragen zu einem Dokument in natürlicher Sprache.

  • Extraktion von Text und Layout: Erfassen von Dokumenttext (mit oder ohne Layout), um Entitäten zu extrahieren, Zusammenfassungen zu erstellen und Analysen unter Verwendung anderer AI-Funktionen durchzuführen.

  • Klassifizierung Bestimmen Sie den Dokumenttyp (z. B. „Rechnung“, „Vertrag“, „Bericht“) beim Einlesen von Daten, um jeden Typ an einen geeigneten Verarbeitungs-Workflow weiterzuleiten.

  • Erstellen einer Modell-Registry zur Freigabe von benutzerdefinierten Extraktions- und Klassifizierungsmodellen: In einer Modell-Registry werden Modelle zur Extraktion von Dokumenten gespeichert, die für die in Ihrer Organisation spezifischen Anwendungsfälle angepasst sind. Die Wiederverwendung dieser Modelle über Teams hinweg spart Zeit und Mühe.