Document AI を使用して情報を抽出する¶

このトピックでは、 Document AI を使用してドキュメントから情報を抽出する方法について説明します。

以前に Document AI モデルビルドを公開またはトレーニングしたことがある場合、ワークシートで抽出クエリを実行することで、ドキュメントから情報を抽出できるようになりました。また、処理パイプラインを作成し、ステージ内の新しいドキュメントを継続的に処理することもできます。

注釈

Document AI には、1回のクエリで処理できるドキュメントの数やサイズなど、既知の制限があります。詳細については、 Document AI に対する既知の制限をご参照ください。

前提条件¶

情報抽出を成功させるには、以下の条件が必要です。

情報抽出に使用されるドキュメントは、内部または外部のステージに保存されます。詳細については、 Document AI の設定をご参照ください。
Document AI で設定したデータベースとスキーマを使用しています。例:
```
USE DATABASE doc_ai_db;
USE SCHEMA doc_ai_schema;
```
Copy
SNOWFLAKE.DOCUMENT_INTELLIGENCE_CREATORデータベースロールが付与されたアカウントロールを使用しています。詳細については、 Document AI の設定をご参照ください。
以前、 Document AI モデルビルドを公開したか、 Document AI モデルのトレーニングを行いました。詳細については、 Document AI モデルビルドを公開するをご参照ください。

抽出クエリとは、PREDICT方式に基づく、SQLクエリです。詳細については、 <モデルビルド名>!PREDICT をご参照ください。

ドキュメントから情報を抽出するには、ワークシートで抽出クエリを実行します。Document AI モデルを公開またはトレーニングした後、 Snowsight で定義された抽出クエリを見ることができます。

抽出クエリを Snowsight で表示するには:

Snowsight にサインインします。
ナビゲーションメニューで AI & ML » AI Studio を選択します。
Document Processing Playground の横にある Open を選択します。ドキュメント処理プレイグラウンドで Document AI にアクセスするには、 Go to Document AI model builds を選択します。
ウェアハウスを選択します。

モデルビルドのリストが表示されます。
モデルビルドのリストから、クエリを表示したいモデルビルドの名前を選択します。
Extracting Query を表示するには、 Build Details タブを選択します。

重要

<モデルビルド名>!PREDICT メソッドは非推奨です。Snowflakeは、代わりに AI_EXTRACT 関数を使用することをお勧めします。詳細については、 Document AI の廃止（保留中）をご参照ください。

Document AI を使用すると、文書ファイルを自動的に処理して情報を抽出するパイプラインを作成できます。処理パイプラインを作成するには、ステージ上のストリームと、ステージ内の新しいドキュメントを継続的に処理するタスクの両方を作成する必要があります。