Übersicht über Cortex Parse

Die Funktion PARSE_DOCUMENT ist eine aufgabenspezifische Funktion von Cortex aufgabenspezifische AI-Funktion von Cortex, die Ihnen die Möglichkeit gibt, Text oder Layout aus Dokumenten zu extrahieren, die in einem internen oder externen Stagingbereich gespeichert sind. PARSE_DOCUMENT kombiniert leistungsstarke Funktionen zur optischen Zeichenerkennung (OCR) mit Machine Learning-Modellen, um Textinhalte, in Tabellen gespeicherte Informationen und die strukturellen Elemente von PDF-Dokumenten zu erkennen. Mit der Funktion PARSE_DOCUMENT können Sie Text und Dokumentlayout extrahieren, um Informationsabrufsystem für großen Archive von Geschäftsdokumenten zu erstellen und die extrahierten Informationen in strukturierte Snowflake-Tabellen zu laden, die von Ihren Anwendungen verwendet werden können.

So funktioniert Parse Document

Die Funktion PARSE_DOCUMENT bietet die Modi OCR (Standard) und LAYOUT für die Verarbeitung von PDF-Dokumenten.

  • Der Modus PARSE_DOCUMENT OCR (Standard) ist für die Textextraktion aus textlastigen Dokumenten optimiert. Dies ist die empfohlene Option für eine schnelle, einfache und effektive Textextraktion aus Dokumenten, die keine starke semantische Struktur aufweisen.

  • Der ModusPARSE_DOCUMENT LAYOUT (optional) ist für das Extrahieren von Text und Layout-Elementen wie Tabellen optimiert. Dies ist die empfohlene Option zur Verbesserung des Kontexts einer Dokument-Wissensdatenbank, um die Abrufinformationssystemen und die Inferenz des Large Language Model (LLM) zu optimieren. Sie können zum Beispiel Textabschnitte mithilfe von LAYOUT-Elementen isolieren, um Entitäten gezielter zu extrahieren.

Parse Document verwenden

Die Cortex-Funktion PARSE_DOCUMENT ist eine SQL-Funktion. Da es vollständig von Snowflake gehostet und verwaltet wird, ist für die Nutzung kein Setup erforderlich. Das bedeutet, dass Sie die Funktion PARSE_DOCUMENT auf einen Stagingbereich verweisen kann, in dem PDF-Dokumente gespeichert sind, um Text- oder Layoutdaten zu extrahieren. Das folgende Beispiel extrahiert die Text- und Layoutinformationen aus der Datei document_1.pdf im documents-Stagingbereich in der Datenbank parse_document und im Schema demo.

Bemerkung

PARSE_DOCUMENT ist derzeit nicht mit den benutzerdefinierten von Netzwerkrichtlinien kompatibel.

SELECT
  SNOWFLAKE.CORTEX.PARSE_DOCUMENT(
    @parse_document.demo.documents,
    'document_1.pdf',
    {'mode': 'LAYOUT'}
  ) AS layout;
Copy

PARSE_DOCUMENT unterstützt die Verarbeitung von Dokumenten, die in einem internen Snowflake-Stagingbereich oder einem externen Stagingbereich gespeichert sind. Bei der Erstellung Ihres Stagingbereichs ist Serverseitige Verschlüsselung erforderlich. Andernfalls gibt PARSE_DOCUMENT einen Fehler zurück, der besagt, dass die bereitgestellte Datei nicht das erwartete Format hat oder auf der Clientseite verschlüsselt ist.

CREATE STAGE input_stage
    DIRECTORY = ( ENABLE = true )
    ENCRYPTION = ( TYPE = 'SNOWFLAKE_SSE' );
Copy

Eingabeanforderungen

Die Cortex-Funktion PARSE_DOCUMENT ist derzeit für Dokumente optimiert, die digital erstellt und nicht von einem Papierdokument gescannt wurden. In der folgenden Tabelle sind die Beschränkungen und Anforderungen für das Eingabedokument aufgeführt:

Maximale Dateigröße

100 MB

Maximale Seitenzahl pro Dokument

100 Seiten

Erlaubter Dateityp

PDF

Stagingbereich-Verschlüsselung

Serverseitige Verschlüsselung

Bemerkung

PARSE_DOCUMENT ist derzeit nicht für Sprachen optimiert, die nicht-lateinische Zeichen verwenden, wie Chinesisch, Japanisch und Thai. Französisch, Portugiesisch, Italienisch, Deutsch, Spanisch, Schwedisch und Norwegisch werden in der Vorschau unterstützt und werden weiter optimiert.

Schlüsselfunktionalität

Funktion

Beschreibung

Seitenausrichtung

PARSE_DOCUMENT erkennt automatisch die Seitenausrichtung.

Zeichen

PARSE Document erkennt die folgenden Zeichen:

  • a–z

  • A-Z

  • 0-9

  • À Á Â Ä Å Ç È É Ê Ë Ì Í Î Ï Ò Ó Ô Õ Ö Ú Ü Ý ß à á â ã ä å æ ç è é ê ë ì í î ï ñ ò ó ô õ ö ø ù ú û ü ý ą Ć ć Č č Đ đ ę ı Ł ł ō Œ œ Š š Ÿ Ž ž ʒ β δ ε з Ṡ

  • # $ % & ‚ ( ) * + , - . / : ; < = > ? @ [ ] _ ` { } ¡ £ § ª « ° ¹ ² ³ ´ µ · º » ¿ ‘ € ™

Sprachen

PARSE_DOCUMENT ist für Englisch optimiert. Sie unterstützt auch Französisch, Portugiesisch, Italienisch, Deutsch, Spanisch, Schwedisch und Norwegisch in der Vorschau.

Regionale Verfügbarkeit

Dieses Feature ist für Konten in den folgenden Snowflake Regionen verfügbar:

AWS

Azure

US West 2 (Oregon)

East US 2 (Virginia)

US East (Ohio)

West Europe (Niederlande)

US East 1 (N. Virginia)

Europa (Irland)

Europe Central 1 (Frankfurt)

Anforderungen an die Zugriffssteuerung

Um die Funktion PARSE_DOCUMENT zu verwenden, muss ein Benutzer mit der Rolle ACCOUNTADMIN dem Benutzer, der die Funktion aufruft, die Datenbankrolle SNOWFLAKE.CORTEX_USER erteilen. Siehe Erforderliche Berechtigungen für weitere Informationen.

Hinweise zu Kosten

Für die Cortex-Funktion PARSE_DOCUMENT fallen während dieser Vorschau keine Kosten für die Verarbeitung von Dokumenten an. Eine spätere Abrechnung, die mit der Verarbeitung der Dokumente einhergeht, wird erwartet.

Auch wenn während der Vorschau keine Kosten für Berechnungen anfallen, müssen Sie ein Warehouse für die Ausführung der Abfrage wählen, die die Funktion aufruft. Snowflake empfiehlt, dass Sie Abfragen, die die Cortex-PARSE_DOCUMENT-Funktion aufrufen, mit einem kleineren Warehouse (nicht größer als MEDIUM) ausführen, da größere Warehouses die Leistung nicht erhöhen.

Fehlerbedingungen

Snowflake Cortex PARSE_DOCUMENT kann die folgenden Fehlermeldungen erzeugen:

Meldung

Erläuterung

Die bereitgestellte Datei hat nicht das erwartete Format. Stellen Sie sicher, dass es eine PDF-Datei ist.

Wird zurückgegeben, wenn das Dokument keine gültige PDF-Datei ist.

Maximale Anzahl von 100 Seiten überschritten.

Wird zurückgegeben, wenn PDF mehr als 100 Seiten enthält.

Maximale Dateigröße von 104857600 Bytes überschritten.

Wird zurückgegeben, wenn das Dokument größer als 100 MB ist.

Die bereitgestellte Datei ist nicht auffindbar oder der Zugriff auf sie ist nicht möglich.

Die Datei existiert nicht.

Interner Fehler.

Es ist ein Systemfehler aufgetreten. Warten Sie und versuchen Sie es erneut.

Einbindung von PARSE_DOCUMENT in RAG-Pipelines

Retrieval Augmented Generation (RAG) ist eine Technik zum Abrufen von Daten aus einer Wissensdatenbank, um die generierte Antwort eines LLM zu verbessern. Die Qualität und der Kontext des Inhalts, der aus verschiedenen Dokumenten extrahiert wird, sind entscheidend für die Abrufleistung in einem Dokumentensuchsystem Mit dem Modus PARSE_DOCUMENT LAYOUT können Sie auf einfache Weise eine fortgeschrittene Extraktion von Inhalten implementieren, die die strukturelle Integrität eines Dokuments beibehält, sodass Sie den Text problemlos in prägnante, in sich geschlossene Texteinheiten aufteilen können. Dies wiederum gibt Ihnen die Möglichkeit, semantische Blöcke zu implementieren, anstatt sich auf willkürliche Zeichentrennungen zu verlassen, sowie gezielte Fragen und Antworten und Zusammenfassungen auszuführen.