Document AI モデルビルドを準備する

このトピックでは、 Document AI モデルビルドの準備について説明します。

Snowsight で Document AI モデルビルドを作成・管理します。 Document AI モデルビルドは、単一のタイプのドキュメントを表します。たとえば、請求書ドキュメントから情報を抽出するためのモデルビルドなどです。 Document AI モデルビルドには、モデル、抽出されるデータ値、モデルのテストとトレーニングのためにアップロードされるドキュメントが含まれます。

Document AI モデルビルドは DOCUMENT_INTELLIGENCE クラスのインスタンスです。たとえば、Snowflakeは、SNOWFLAKE.MLスキーマでDOCUMENT_INTELLIGENCEクラスを提供します。利用可能なクラスの詳細については、 Snowflakeクラス をご参照ください。

Snowsight では、 Document AI モデルビルドビューは以下のタブに分かれています。

  • ドキュメント数、抽出するデータ値の数、モデルの精度、抽出クエリなど、モデルビルドに関する Build Details: ビュー情報。

  • Documents: モデルのテストとトレーニングのためにアップロードされたドキュメントのリストを確認します。

  • Values: 抽出するデータ値のリストを表示します。

Document AI のロールと権限の詳細については、 Document AI の設定 をご参照ください。

Document AI モデルビルドを作成する

  1. SNOWFLAKE.DOCUMENT_INTELLIGENCE_CREATOR ロールを付与されたアカウントロールを使用して、 Snowsight にサインインします。

  2. ナビゲーションメニューで AI & ML » Document AI を選択します。

  3. ウェアハウスを選択します。

    既存のモデルビルドのリストが表示されます。

  4. + Build を選択します。

  5. 表示されるダイアログで、モデルビルドの名前を入力し、その場所(データベースとスキーマ)を選択し、 Create を選択します。

    モデルビルドが作成されます。

注釈

  • AI ドキュメントは、データベースとスキーマの識別子を二重引用符で囲むことをサポートしていません。

  • Document AI は、モデルビルドが置かれているデータベースやスキーマの変更をサポートしていません。

Document AI モデルビルドの削除

注意

Document AI モデルビルドを削除すると、モデルの学習に使用されたモデルとアップロードされたすべてのドキュメントが削除されます。モデルビルドを削除する前に、それがドキュメント処理パイプラインの一部でないことを確認してください。ドキュメント処理パイプラインで使用されているモデルビルドを削除すると、パイプラインは失敗します。

Snowflakeはモデルビルドデータを保持しないため、削除されたモデルビルドとトレーニングデータを復元することはできません。

モデルビルドにアップロードされたドキュメントを含め、 Document AI モデルビルドを削除するには:

  1. Snowsight にサインインします。

  2. ナビゲーションメニューで AI & ML » Document AI を選択します。

  3. ウェアハウスを選択します。

  4. モデルビルド名の隣にある ... (詳細)メニューを選択し、 Delete を選択します。

  5. 削除を確認するには、 Delete Build ダイアログで、 Delete を選択します。

Document AI モデルビルドへのドキュメントのアップロード

Document AI モデルのテストと学習を行うには、 Snowsight で構築したモデルにドキュメントを手動で追加します。

注釈

モデルビルドにドキュメントをアップロードする前に、ドキュメントが Document AI のためのドキュメントを準備する に記載されている要件を満たしていることを確認してください。

既存の Document AI モデルビルドにドキュメントをアップロードするには:

  1. Snowsight にサインインします。

  2. ナビゲーションメニューで AI & ML » Document AI を選択します。

  3. ウェアハウスを選択します。

  4. モデルビルドのリストから、ドキュメントを追加するビルドの名前を選択します。

  5. Build Details タブを選択します。

  6. Upload documents を選択します。

  7. Browse を選択するか、ドキュメントをダイアログにドラッグします。

  8. Upload を選択します。

ドキュメントをアップロードした後、 Documents タブでステータスを表示できます。

ドキュメントは以下のステータスのいずれかを持つことができます。

  • 処理中: ドキュメントは OCR で処理中です。

  • レビューする: OCR プロセスは成功し、ドキュメントを確認できるようになりました。

  • 進行中: レビューが進行中で、このドキュメントに少なくとも1つの値が定義されていることを意味します。

  • 受諾済み: あなたはドキュメントを確認し、すべての値を受け入れました。

  • エラー: OCR 中にエラーが発生しました。

Document AI モデルビルドからドキュメントを削除する

注意

トレーニングに使用したドキュメントは削除できません。

ドキュメントを削除すると、そのドキュメントでレビューされたデータ値も削除されます。

Document AI モデルビルドからドキュメントを削除するには:

  1. Snowsight にサインインします。

  2. ナビゲーションメニューで AI & ML » Document AI を選択します。

  3. ウェアハウスを選択します。

  4. モデルビルドのリストから、評価するモデルビルドの名前を選択します。

  5. Documents タブを選択します。

  6. ドキュメント名の横にある ... (その他)メニューを選択し、 Delete を選択します。

  7. 削除を確認するには、 Delete Document ダイアログで、 Delete を選択します。

Document AI モデルビルドのための値の定義

データ値は、ドキュメントから抽出したい情報です。値は、値の名前と自然言語で尋ねられた質問で構成されます。モデルに対する質問の最適化については、 Document AI で情報を抽出するための質問の最適化 をご参照ください。

Document AI モデルビルドの値を定義するには:

  1. Snowsight にサインインします。

  2. ナビゲーションメニューで AI & ML » Document AI を選択します。

  3. ウェアハウスを選択します。

  4. モデルビルドのリストから、値を定義するモデルビルドの名前を選択します。

  5. Build Details タブを選択します。

  6. Define values を選択します。

  7. Documents review ビューで、 + Value を選択します。

  8. それぞれの値について、値の名前と質問を入力します。

この手順の結果、モデルは質問に対する回答と信頼スコアを提供します。信頼度スコアは、回答が正しいというモデルの確信度を表します。例えば、信頼度スコアが 0.9 の場合、回答が正しいという信頼度が90%であることを意味します。

回答のレビューと結果の評価

Document AI モデルを使って情報を抽出したり、微調整によってモデルをトレーニングすることを決定する前に、モデルが提供する回答を確認する必要があります。

回答をレビューする際と、次のようなシナリオに遭遇する可能性があります。

返ってきた回答

ユーザーアクション

正しい

チェックマークを選択します。完全に正しい回答だけを確定してください。

不正解

正しい値を手動で入力してください。

手動で値を変更した後にモデルから提供された値を確定するには、下矢印を選択します。

回答一覧

リストから回答を削除したり、回答を追加するには、 ... (その他)メニューを選択してください。

なし

ドキュメントに回答が含まれている場合は、値を手入力します。

ドキュメントに回答が含まれていない場合は、チェックマークを選択して空の回答を確定します。

Document AI モデルの評価

Document AI モデル(基礎モデルまたは微調整モデルのいずれか)を評価するには、精度を分析します。精度は、モデルが正しい回答を提供する頻度を表します。精度が高いほど、そのモデルの抽出能力が高いことを示します。精度を確認するには、すべての質問の回答をレビューします。

精度を表示するには:

  1. Snowsight にサインインします。

  2. ナビゲーションメニューで AI & ML » Document AI を選択します。

  3. ウェアハウスを選択します。

  4. モデルビルドのリストから、評価するモデルビルドの名前を選択します。

  5. Build Details タブを選択し、 Model accuracy を表示します。

Document AI モデルがあなたの質問に確実に回答、その精度が満足のいくものであれば、モデルビルドを公開してください。 Document AI モデルビルドを公開する をご参照ください。

Document AI モデルの結果を改善するには、モデルをトレーニングします。 Document AI モデルのトレーニング をご参照ください。

Tip

トレーニング後に Document AI モデルを評価するには、新しくアップロードされたドキュメントを確認します。

Document AI モデルビルドを公開する

  1. Snowsight にサインインします。

  2. ナビゲーションメニューで AI & ML » Document AI を選択します。

  3. ウェアハウスを選択します。

  4. モデルビルドのリストから、公開するモデルビルドの名前を選択します。

  5. Build Details タブを選択します。

  6. Model accuracy の下で、 Publish version を選択します。

  7. 表示されるダイアログで、 Publish を選択して確定します。

モデルビルドを公開すると、 抽出クエリ が表示されます。

モデルをトレーニングした後、またはモデルビルドを公開した後に新しいデータ値を追加した(新しい質問をした)場合、モデルビルドを再度公開する必要があります。

Document AI モデルのトレーニング

結果が満足のいくものでない場合は、 Document AI モデルをトレーニングして結果を改善することができます。

Snowflakeでは、トレーニングの前に少なくとも20のドキュメントについて結果を確認することを推奨しています。

Tip

モデルの品質を評価するには、ドキュメントを2つのセットに分けます。1つのドキュメントセットをレビューし、未レビューのドキュメントを使用して、トレーニング後のモデルを評価します。

モデルのトレーニングを開始します。

  1. Snowsight にサインインします。

  2. ナビゲーションメニューで AI & ML » Document AI を選択します。

  3. ウェアハウスを選択します。

  4. モデルビルドのリストから、トレーニングするモデルビルドの名前を選択します。

  5. Build Details タブを選択します。

  6. Model accuracy の下で、 Train model を選択します。

  7. 表示されるダイアログで、 Start training を選択して確定します。

トレーニングが完了すると、通知が表示されます。

Document AI モデルを再評価することができます。トレーニング後に微調整されたモデルの精度を見るには、2つ目のドキュメントセットを確認します。満足のいく結果を得るために、何度もモデルを微調整することができることに注意してください。

モデルをトレーニングし、トレーニング後に新しいデータ値を追加しない(新しい質問をしない)場合、モデルビルドを公開する必要はありません。

注釈

複数のモデルビルドに対して、同時に複数のトレーニングを開始することができます。トレーニングはキューに入れられ、同時に3つ以上のトレーニングを実行することはできません。

トレーニング時間の推定

Document AI モデルの学習時間は、抽出する値の数とドキュメント内のページ数の両方に依存します。

次の表は、各ドキュメントのページ数に応じて、20ドキュメント(トレーニングに必要な最小数)のバッチと10値の推定トレーニング時間の一覧です。

各ドキュメントのページ数

20ドキュメントの推定トレーニング時間(時間)

1

0.5

10

1.5

25

4

50

8

75

12.5

100

16.5

125

20.5

注釈

テーブルはトレーニング時間の目安です。トレーニングに必要な実際の時間は異なる場合があります。一般的に、値の数やドキュメントの数を2倍にすると、学習時間は2倍になります。

最長トレーニング時間は48時間です。データ量がその制限を超える可能性がある場合、トレーニングの可能性はブロックされます。