Document AI を使用して情報を抽出する¶
このトピックでは、 Document AI を使用してドキュメントから情報を抽出する方法について説明します。
以前に Document AI モデルビルドを公開またはトレーニングしたことがある場合、ワークシートで 抽出クエリ を実行することで、ドキュメントから情報を抽出できるようになりました。また、 処理パイプライン を作成し、ステージ内の新しいドキュメントを継続的に処理することもできます。
注釈
Document AI には、1回のクエリで処理できるドキュメントの数やサイズなど、既知の制限があります。詳細については、 Document AI に対する既知の制限 をご参照ください。
前提条件¶
情報抽出を成功させるには、以下の条件が必要です。
情報抽出に使用されるドキュメントは、内部または外部のステージに保存されます。詳細については、 Document AI の設定 をご参照ください。
Document AI で設定したデータベースとスキーマを使用しています。例:
USE DATABASE doc_ai_db; USE SCHEMA doc_ai_schema;
SNOWFLAKE.DOCUMENT_INTELLIGENCE_CREATORデータベースロールが付与されたアカウントロールを使用しています。詳細については、 Document AI の設定 をご参照ください。
以前、 Document AI モデルビルドを公開したか、 Document AI モデルのトレーニングを行いました。詳細については、 Document AI モデルビルドを公開する をご参照ください。
抽出クエリを使用する¶
抽出クエリとは、PREDICT方式に基づく、SQLクエリです。詳細については、 <モデルビルド名>!PREDICT をご参照ください。
ドキュメントから情報を抽出するには、ワークシートで抽出クエリを実行します。 Document AI モデルを公開またはトレーニングした後、 Snowsight で定義された抽出クエリを見ることができます。
抽出クエリを Snowsight で表示するには:
Snowsight にサインインします。
ナビゲーションメニューで AI & ML » Document AI を選択します。
ウェアハウスを選択します。
モデルビルドのリストが表示されます。
モデルビルドのリストから、クエリを表示したいモデルビルドの名前を選択します。
Extracting Query を表示するには、 Build Details タブを選択します。
ドキュメント処理パイプラインを作成する¶
Document AI を使用すると、文書ファイルを自動的に処理して情報を抽出するパイプラインを作成できます。処理パイプラインを作成するには、ステージ上のストリームと、ステージ内の新しいドキュメントを継続的に処理するタスクの両方を作成する必要があります。
詳細については、 チュートリアル: Document AI でドキュメント処理パイプラインを作成する をご参照ください。