Informationen mit Document AI extrahieren

Unter diesem Thema wird das Extrahieren von Informationen aus Dokumenten mit Document AI beschrieben.

Wenn Sie zuvor den Document AI-Modell-Build veröffentlicht oder trainiert haben, können Sie jetzt Informationen aus Dokumenten extrahieren, indem Sie die extrahierende Abfrage in Arbeitsblättern ausführen. Sie können auch Verarbeitungspipelines erstellen, um kontinuierlich neue Dokumente in einem Stagingbereich zu verarbeiten.

Bemerkung

Document AI hat bekannte Beschränkungen, darunter die Anzahl und Größe der Dokumente, die Sie in einer einzigen Abfrage verarbeiten können. Weitere Informationen dazu finden Sie unter Bekannte Einschränkungen bei Document AI.

Voraussetzungen

Eine erfolgreiche Informationsextraktion erfordert die folgenden Bedingungen:

  • Die für die Informationsextraktion verwendeten Dokumente sind in einem internen oder externen Stagingbereich gespeichert. Weitere Informationen dazu finden Sie unter Einrichten von Document AI.

  • Sie verwenden die Datenbank und das Schema, das Sie für Document AI eingerichtet haben. Beispiel:

    USE DATABASE doc_ai_db;
    USE SCHEMA doc_ai_schema;
    
    Copy
  • Sie verwenden eine Kontorolle, der die Datenbankrolle SNOWFLAKE.DOCUMENT_INTELLIGENCE_CREATOR zugewiesen ist. Weitere Informationen dazu finden Sie unter Einrichten von Document AI.

  • Sie haben zuvor einen Document AI-Modell-Build veröffentlicht oder ein Document AI-Modell trainiert. Weitere Informationen dazu finden Sie unter Document AI-Modell-Build veröffentlichen.

Extrahierende Abfrage verwenden

Eine extrahierende Abfrage ist eine SQL-Abfrage basierend auf der PREDICT-Methode. Weitere Informationen dazu finden Sie unter <model_build_name>!PREDICT.

Um Informationen aus Dokumenten zu extrahieren, führen Sie die extrahierende Abfrage in Arbeitsblättern aus. Nachdem Sie das Document AI-Modell veröffentlicht oder trainiert haben, können Sie die extrahierende Abfrage sehen, die in Snowsight definiert ist.

So zeigen Sie die extrahierende Abfrage in Snowsight an:

  1. Melden Sie sich bei Snowsight an.

  2. Wählen Sie im Navigationsmenü die Option AI & ML » Document AI aus.

  3. Wählen Sie ein Warehouse aus.

    Die Liste der Modell-Builds wird angezeigt.

  4. Wählen Sie in der Liste der Modell-Builds den Namen des Modell-Builds aus, für den Sie die Abfrage anzeigen möchten.

  5. Um die Extracting Query anzuzeigen, wählen Sie die Registerkarte Build Details aus.

Dokumentenverarbeitungspipelines erstellen

Mit Document AI können Sie Pipelines erstellen, die automatisch Dokumentdateien verarbeiten, um Informationen zu extrahieren. Um eine Verarbeitungspipeline zu erstellen, müssen Sie sowohl einen Stream auf einem Stagingbereich als auch eine Aufgabe erstellen, die kontinuierlich neue Dokumente im Stagingbereich verarbeitet.

Weitere Informationen dazu finden Sie unter Tutorial: Dokumentenverarbeitungspipeline mit Document AI erstellen.