Document AI

Was ist Document AI ?

Document AI ist ein Snowflake KI-Feature, das Arctic-TILT, ein proprietäres großes Sprachmodell (LLM), verwendet, um Daten aus Dokumenten zu extrahieren. Document AI verarbeitet Dokumente verschiedener Formate und extrahiert Informationen sowohl aus textlastigen Absätzen als auch aus Inhalten in grafischer Form, wie Logos, handschritlicher Text (Unterschriften) oder Häkchen. Mit Document AI können Sie Pipelines für die kontinuierliche Verarbeitung neuer Dokumente eines bestimmten Typs vorbereiten, wie Rechnungen oder Finanzberichte.

Document AI bietet sowohl Zero-Shot-Extraktion als auch Fine-Tuning. Zero-Shot bedeutet, dass das Foundation Model (Basismodell) spezifische Informationen zu einem Dokumenttyp finden und extrahieren kann, selbst wenn das Modell das Dokument noch nie gesehen hat. Das liegt daran, dass das Foundation Modell an einer großen Menge verschiedener Dokumente trainiert wurde, sodass das Modell den Typ des zu verarbeitenden Dokuments weitgehend versteht.

Darüber hinaus können Sie ein Fine-Tuning des Snowflake Arctic-TILT-Modells vornehmen, um Ihre Ergebnisse zu verbessern, indem Sie das Modell mit den für Ihren Anwendungsfall spezifischen Dokumenten trainieren. Das optimierte Modell (einschließlich der verwendeten Trainingsdaten) steht nur Ihnen zur Verfügung und wird nicht an andere Snowflake-Kunden weitergegeben.

Wann wird Document AI verwendet?

Document AI eignet sich besonders in folgenden Fällen:

  • Sie möchten unstrukturierte Daten aus Dokumenten in strukturierte Daten in Tabellen umwandeln.

  • Sie möchten Pipelines für die kontinuierliche Verarbeitung neuer Dokumente eines bestimmten Typs erstellen.

  • Geschäftsanwender mit Fachwissen bereiten das Modell vor, und Data Engineers, die mit SQL arbeiten, erstellen Pipelines, um die Verarbeitung neuer Dokumente zu automatisieren.

Wie funktioniert Document AI ?

Die Arbeit mit Document AI ist in zwei Phasen unterteilt:

  • Vorbereiten eines Document AI Modells

    Sie können sich ein Modell-Build als eine Repräsentation eines einzelnen Dokumententyps oder eines Anwendungsfalls vorstellen, z. B. einen Modell-Build für die Extraktion von Informationen aus Rechnungsdokumenten. Der Document AI-Modell-Build umfasst das Modell, die zu extrahierenden Datenwerte und die zum Testen und Trainieren des Modells hochgeladenen Dokumente.

    Sie bereiten den Aufbau des Modells über eine Document AI-Weboberfläche in Snowsight vor. Über die Oberfläche können Sie ein Modell erstellen, Dokumente zum Testen und Trainieren des Modells hochladen, Datenwerte (zu extrahierende Informationen) definieren, indem Sie Fragen in natürlicher Sprache stellen, das Modell auswerten und das Modell veröffentlichen oder ein Fine-Tuning des Modells vornehmen, um die Ergebnisse zu verbessern.

    Weitere Informationen dazu finden Sie unter Document AI-Modell-Build vorbereiten.

  • Extrahieren von Informationen aus Dokumenten

    Wenn das Modell fertig ist, können Sie damit beginnen, Informationen aus den Dokumenten zu extrahieren, indem Sie eine Abfrage ausführen, die die Methode <model_build_name>!PREDICT verwendet. Sie können dann die extrahierende Abfrage verwenden, um Pipelines für die kontinuierliche Verarbeitung mit Streams und Aufgaben zu erstellen.

    Weitere Informationen dazu finden Sie unter Informationen mit Document AI extrahieren.

    Bemerkung

    Die Dokumente, die mit der <model_build_name>!PREDICT-Methode verarbeitet werden sollen, müssen in einem internen oder externen Stagingbereich gespeichert sein.

Übersicht über Document AI

Erste Schritte mit Document AI finden Sie unter Tutorial: Dokumentenverarbeitungspipeline mit Document AI erstellen.

Document AI-Modellversionsverlauf

Alle Modelle, die nach dem 6. August 2024 erstellt werden, verwenden eine neue Version des Arctic-TILT-Modells.

Release-Datum der Modellversion

Verbesserungen der Modellversion

6. August 2024

  • Verdoppelung der Länge der Antworten, die das Modell liefert. Das Modell kann nun Antworten liefern, die bis zu 256 Token lang sind (etwa 160 Wörter).

  • Verbesserung der Trainingszeit. Siehe Schätzung der Trainingszeit.

21. Juni 2024

  • Extraktion von Wertelisten

  • Kontrollkästchenidentifikation

  • Erkennung von Abfrageumschreibungen, um die Erkennung von Abfragen zu verbessern, die als Sätze aufgebaut sind, wie z B. Geben Sie mir das Datum der Vereinbarung