Document AI-Modell-Build vorbereiten

Unter diesem Thema wird die Vorbereitung eines Document AI-Modell-Builds beschrieben.

Sie erstellen und verwalten Document AI-Modell-Builds in Snowsight. Der Document AI-Modell-Build repräsentiert einen einzelnen Dokumententyp, z. B. einen Modell-Build für die Extraktion von Informationen aus Rechnungsdokumenten. Der Document AI-Modell-Build umfasst das Modell, die zu extrahierenden Datenwerte und die zum Testen und Trainieren des Modells hochgeladenen Dokumente.

Der Document AI-Modell-Build ist eine Instanz der Klasse DOCUMENT_INTELLIGENCE. Snowflake stellt die Klasse DOCUMENT_INTELLIGENCE im Schema SNOWFLAKE.ML bereit. Weitere Informationen zu Klassen finden Sie unter Snowflake-Klassen.

In Snowsight ist die Ansicht des Document AI-Modell-Builds in die folgenden Registerkarten unterteilt:

  • Build Details:: Zeigt Informationen zum Modell-Build an, z. B. die Anzahl der Dokumente, die Anzahl der zu extrahierenden Datenwerte, die Modellgenauigkeit und die extrahierende Abfrage.

  • Documents:: Zeigt die Liste der Dokumente, die zum Testen und Trainieren des Modells hochgeladen wurden.

  • Values: Zeigt die Liste der zu extrahierenden Datenwerte an.

Weitere Informationen zu Rollen und Berechtigungen für Document AI finden Sie unter Einrichten von Document AI.

Document AI-Modell-Build erstellen

  1. Melden Sie sich bei Snowsight mit einer Kontorolle an, der die Rolle SNOWFLAKE.DOCUMENT_INTELLIGENCE_CREATOR zugewiesen ist.

  2. Wählen Sie im Navigationsmenü die Option AI & ML » Document AI aus.

  3. Wählen Sie ein Warehouse aus.

    Die Liste der vorhandenen Modell-Builds wird angezeigt.

  4. Wählen Sie + Build aus.

  5. Geben Sie im daraufhin angezeigten Dialogfeld einen Namen für Ihren Modell-Build ein, wählen Sie den Speicherort (Datenbank und Schema) aus, und wählen Sie dann Create aus.

    Der Modell-Build wird erstellt.

Bemerkung

  • Document AI unterstützt keine doppelten Anführungszeichen um Bezeichner für die Datenbank und das Schema.

  • Document AI unterstützt nicht das Ändern einer Datenbank oder eines Schemas, wo sich das Modell-Build befindet.

Document AI-Modell-Build löschen

Achtung

Wenn Sie den Document AI-Modell-Build löschen, löschen Sie das Modell und alle hochgeladenen Dokumente, die zum Trainieren des Modells verwendet wurden. Bevor Sie einen Modell-Build löschen, vergewissern Sie sich, dass er nicht Teil einer Dokumentenverarbeitungspipeline ist. Wenn Sie einen Modell-Build löschen, der in einer Dokumentenverarbeitungs-Pipeline verwendet wird, schlägt die Pipeline fehl.

Snowflake speichert keine Daten zum Modell-Build, sodass gelöschte Modell-Builds und Trainingsdaten nicht wiederhergestellt werden können, sondern neu erstellt werden müssen.

So löschen Sie einen Document AI-Modell-Build, einschließlich der zu diesem Modell-Build hochgeladenen Dokumente:

  1. Melden Sie sich bei Snowsight an.

  2. Wählen Sie im Navigationsmenü die Option AI & ML » Document AI aus.

  3. Wählen Sie ein Warehouse aus.

  4. Wählen Sie neben dem Modell-Build-Namen das Menü (Mehr) aus, und wählen Sie dann Delete aus.

  5. Um den Löschvorgang zu bestätigen, wählen Sie im Dialogfeld Delete Build die Option Delete aus.

Dokumente in einen Document AI-Modell-Build hochladen

Um das Document AI-Modell zu testen und zu trainieren, fügen Sie die Dokumente in Snowsight manuell zu Ihrem Modell-Build hinzu.

Bemerkung

Bevor Sie Dokumente in den Modell-Build hochladen, vergewissern Sie sich, dass die Dokumente die unter Dokumente für Document AI vorbereiten aufgeführten Anforderungen erfüllen.

So laden Sie Dokumente in einen vorhandenen Document AI-Modell-Build hoch:

  1. Melden Sie sich bei Snowsight an.

  2. Wählen Sie im Navigationsmenü die Option AI & ML » Document AI aus.

  3. Wählen Sie ein Warehouse aus.

  4. Wählen Sie in der Liste der Modell-Builds den Namen des Builds aus, dem Sie Dokumente hinzufügen möchten.

  5. Wählen Sie die Registerkarte Build Details aus.

  6. Wählen Sie Upload documents aus.

  7. Wählen Sie Browse aus, oder ziehen Sie die Dokumente in ein Dialogfeld.

  8. Wählen Sie Upload aus.

Nachdem Sie das Dokument hochgeladen haben, können Sie seinen Status auf der Registerkarte Documents anzeigen.

Das Dokument kann einen der folgenden Status haben:

  • Verarbeitung: Das Dokument wird gerade von OCR verarbeitet.

  • Zur Überprüfung: Der OCR-Prozess war erfolgreich und Sie können das Dokument nun überprüfen.

  • In Bearbeitung: Die Überprüfung ist im Gange, das heißt, Sie haben mindestens einen Wert für dieses Dokument definiert.

  • Akzeptiert: Sie haben das Dokument geprüft und alle Werte akzeptiert.

  • Fehler: Bei OCR ist ein Fehler aufgetreten.

Dokumente aus einem Document AI-Modell löschen

Achtung

Sie können keine Dokumente löschen, die für Schulungen verwendet wurden.

Wenn Sie ein Dokument löschen, löschen Sie auch die überprüften Datenwerte in diesem Dokument.

So löschen Sie Dokumente aus einem Document AI-Modell-Build:

  1. Melden Sie sich bei Snowsight an.

  2. Wählen Sie im Navigationsmenü die Option AI & ML » Document AI aus.

  3. Wählen Sie ein Warehouse aus.

  4. Wählen Sie in der Auflistung der Modell-Builds den Namen des Modell-Builds aus.

  5. Wählen Sie die Registerkarte Documents aus.

  6. Wählen Sie das Menü (mehr) neben dem Dokumentnamen aus, und wählen Sie dann Delete.

  7. Um den Löschvorgang zu bestätigen, wählen Sie im Dialogfeld Delete Document die Option Delete aus.

Werte für einen Document AI-Modell-Build definieren

Datenwerte sind die Informationen, die Sie aus den Dokumenten extrahieren möchten. Ein Wert besteht aus einem Wertnamen und einer in natürlicher Sprache gestellten Frage. Weitere Informationen zur Optimierung von Fragen für das Modell finden Sie unter Fragenoptimierung zum Extrahieren von Informationen mit Document AI.

So definieren Sie Werte für das Document AI-Modell-Build:

  1. Melden Sie sich bei Snowsight an.

  2. Wählen Sie im Navigationsmenü die Option AI & ML » Document AI aus.

  3. Wählen Sie ein Warehouse aus.

  4. Wählen Sie in der Liste der Modell-Builds den Namen des Modell-Builds aus, für den Sie Werte definieren möchten.

  5. Wählen Sie die Registerkarte Build Details aus.

  6. Wählen Sie Define values aus.

  7. Wählen Sie in der Ansicht Documents review die Option + Value aus:

  8. Geben Sie für jeden Wert einen Wertnamen und eine Frage ein.

Als Ergebnis dieses Verfahrens liefert das Modell eine Antwort auf die Frage und einen Konfidenzwert. Der Konfidenzwert beschreibt, wie sicher das Modell ist, dass die Antwort richtig ist. Ein Konfidenzwert von 0.9 bedeutet zum Beispiel, dass die Antwort mit 90%iger Sicherheit richtig ist.

Antworten überprüfen und Ergebnisse auswerten

Bevor Sie das Document AI-Modell verwenden, um Informationen zu extrahieren, oder sich entscheiden, das Modell durch Fine-Tuning zu trainieren, müssen Sie die Antworten, die das Modell liefert, überprüfen.

Wenn Sie die Antworten durchgehen, könnten Sie auf die folgenden Szenarios stoßen:

Zurückgegebene Antwort

Aktion des Benutzers

Richtig

Aktivieren Sie das Kontrollkästchen. Bestätigen Sie nur die Antworten, die vollständig korrekt sind.

Falsch

Geben Sie den richtigen Wert manuell ein.

Um den vom Modell bereitgestellten Wert zu überprüfen, nachdem Sie den Wert manuell geändert haben, wählen Sie den Pfeil nach unten.

Liste von Antworten

Um Antworten aus der Liste zu entfernen oder weitere Antworten hinzuzufügen, wählen Sie das Menü (Mehr) aus.

Keine

Wenn das Dokument die Antwort enthält, geben Sie den Wert manuell ein.

Wenn das Dokument die Antwort nicht enthält, bestätigen Sie die leere Antwort, indem Sie das Häkchen setzen.

Document AI-Modell evaluieren

Um ein Document AI-Modell zu evaluieren oder zu bewerten (entweder das Basismodell oder das Fine-Tuning-Modell), analysieren Sie die Genauigkeit. Die Genauigkeit beschreibt, wie oft das Modell eine richtige Antwort liefert. Eine höhere Genauigkeit bedeutet, dass das Modell besser bei der Extraktion ist. Um die Genauigkeit anzuzeigen, überprüfen Sie die Antworten auf alle Fragen.

So zeigen Sie die Genauigkeit an:

  1. Melden Sie sich bei Snowsight an.

  2. Wählen Sie im Navigationsmenü die Option AI & ML » Document AI aus.

  3. Wählen Sie ein Warehouse aus.

  4. Wählen Sie in der Liste der Modell-Builds den Namen des zu bewertenden Modell-Builds aus.

  5. Wählen Sie die Registerkarte Build Details aus, auf der die Modellgenauigkeit unter Model accuracy angezeigt wird.

Wenn das Document AI-Modell Ihre Fragen zuverlässig beantwortet und die Genauigkeit zufriedenstellend ist, veröffentlichen Sie den Modell-Build. Siehe Document AI-Modell-Build veröffentlichen.

Um die Ergebnisse des Document AI-Modells zu verbessern, trainieren Sie das Modell. Siehe Document AI-Modell trainieren.

Tipp

Um das Document AI-Modell nach dem Training zu bewerten, überprüfen Sie die neu hochgeladenen Dokumente.

Document AI-Modell-Build veröffentlichen

  1. Melden Sie sich bei Snowsight an.

  2. Wählen Sie im Navigationsmenü die Option AI & ML » Document AI aus.

  3. Wählen Sie ein Warehouse aus.

  4. Wählen Sie in der Liste der Modell-Builds den Namen des zu veröffentlichenden Modell-Builds aus.

  5. Wählen Sie die Registerkarte Build Details aus.

  6. Wählen Sie unter Model accuracy die Option Publish version aus.

  7. Wählen Sie im angezeigten Dialogfeld zur Bestätigung die Option Publish aus.

Nachdem Sie den Modell-Build veröffentlicht haben, können Sie eine extrahierende Abfrage anzeigen.

Wenn Sie neue Datenwerte hinzugefügt (neue Fragen gestellt) haben, nachdem Sie das Modell trainiert oder den Modell-Build veröffentlicht haben, müssen Sie den Modell-Build erneut veröffentlichen.

Document AI-Modell trainieren

Wenn die Ergebnisse nicht zufriedenstellend sind, können Sie das Document AI-Modell trainieren, um die Ergebnisse zu verbessern.

Snowflake empfiehlt, vor dem Training die Ergebnisse von mindestens 20 Dokumenten zu überprüfen.

Tipp

Um die Qualität des Modells zu beurteilen, teilen Sie Ihre Dokumente in zwei Gruppen auf. Überprüfen Sie einen Satz von Dokumenten und verwenden Sie die nicht überprüften Dokumente, um das Modell nach dem Training zu beurteilen.

So starten Sie das Training des Modells:

  1. Melden Sie sich bei Snowsight an.

  2. Wählen Sie im Navigationsmenü die Option AI & ML » Document AI aus.

  3. Wählen Sie ein Warehouse aus.

  4. Wählen Sie in der Liste der Modell-Builds den Namen des zu trainierenden Modell-Builds aus.

  5. Wählen Sie die Registerkarte Build Details aus.

  6. Wählen Sie unter Model accuracy die Option Train model aus.

  7. Wählen Sie im angezeigten Dialogfeld zur Bestätigung die Option Start training aus.

Wenn das Training abgeschlossen ist, wird eine Benachrichtigung angezeigt.

Sie können nun Ihr Document AI-Modell neu bewerten. Um die Genauigkeit des Fine-Tuning-Modells nach dem Training zu sehen, überprüfen Sie die zweite Gruppe von Dokumenten. Beachten Sie, dass Sie Ihr Modell mehrmals einen Fine-Tuning unterziehen können, um zufriedenstellende Ergebnisse zu erzielen.

Sie müssen den Modell-Build nicht veröffentlichen, wenn Sie das Modell trainiert und nach dem Training keine neuen Datenwerte hinzugefügt (neue Fragen gestellt) haben.

Bemerkung

Sie können mehrere Trainingsläufe für mehrere Modell-Builds zur gleichen Zeit starten. Beachten Sie, dass die Trainingsläufe in eine Warteschlange gestellt werden und Sie nicht mehr als drei Trainingsläufe gleichzeitig ausführen können.

Schätzung der Trainingszeit

Die Trainingszeit für ein Document AI-Modell hängt sowohl von der Anzahl der zu extrahierenden Werte als auch von der Anzahl der Seiten in einem Dokument ab.

In der folgenden Tabelle finden Sie die geschätzte Trainingszeit für einen Batch von 20 Dokumenten (die Mindestanzahl, die für das Training erforderlich ist) und 10 Werten, abhängig von der Anzahl der Seiten in jedem Dokument.

Anzahl der Seiten in jedem Dokument

Geschätzte Schulungszeit für 20 Dokumente (Stunden)

1

0,5

10

1,5

25

4

50

8

75

12,5

100

16,5

125

20,5

Bemerkung

Die Tabelle enthält die geschätzte Trainingszeit. Beachten Sie, dass die tatsächlich benötigte Zeit für das Training variieren kann. Im Allgemeinen verdoppelt sich die Trainingszeit, wenn Sie die Anzahl der Werte oder der Dokumente verdoppeln.

Die maximale Trainingszeit beträgt 48 Stunden. Wenn die Menge Ihrer Daten diese Beschränkung überschreiten könnte, wird die Trainingsmöglichkeit blockiert.