Document AI モデルビルドをエクスポートする

Document AI モデルビルドを内部ステージにエクスポートできます。その結果、ドキュメントファイルがエクスポートされ、注釈ファイルが生成されます。エクスポートされたデータは、 Snowflake Datasets の作成や AI_EXTRACT 関数を使用した情報の抽出など、さまざまな目的で使用できます。

前提条件

  • Document AI を使用するには、必要な権限を持っている必要があります。権限の詳細については、 Document AI の設定 をご参照ください。

  • Document AI モデルビルドをエクスポートするには、ターゲットステージに対する WRITE 権限が必要です。

    注釈

    ターゲットステージは内部ステージである必要があります。

Document AI モデルビルドをエクスポートする

  1. Snowsight にサインインします。

  2. In the navigation menu, select AI & ML » AI Studio.

  3. Document Processing Playground の横にある Open を選択します。ドキュメント処理プレイグラウンドで Document AI にアクセスするには、 Go to Document AI model builds を選択します。

  4. ウェアハウスを選択します。

    既存のモデルビルドのリストが表示されます。

  5. モデルビルド名の隣にある ... (詳細)メニューを選択し、 Export を選択します。

  6. 表示される Export Build ダイアログで、リストからターゲットステージを選択し、 Export を選択して確定します。

  7. エクスポートプロセスが完了したら、 Close を選択してダイアログを閉じます。

    注釈

    エクスポートプロセスが完了する前に、ダイアログを閉じることができます。ダイアログを閉じても、エクスポートプロセスはキャンセルされません。

    モデルビルドがターゲットステージにエクスポートされます。これは、ターゲットステージディレクトリにその Document AI モデルビルドの最新バージョンのドキュメントすべてと、 annotations.jsonl ファイルが含まれていることを意味します。

注釈ファイル

Document AI モデルビルドをエクスポートするとき、 annotations.jsonl ファイルがターゲットステージのディレクトリに生成されます。エクスポートするドキュメントごとに、ファイルには次の情報が含まれます。

  • file:ファイル名識別子

  • prompt :プロンプトを記述する JSON スキーマ

  • annotatedResponse:スキーマと一致する形式でのユーザー応答

  • modelResponse:ユーザーが変更しなかった応答

annotations.jsonl ファイルの次の例を考えてみましょう。

{
  "file": "5d8c22ebe1e9a9b4bc92f611c02a745b_00.pdf",
  "prompt": {
    "type": "object",
    "properties": {
      "information": {
        "description": "Employee information",
        "type": "object",
        "properties": {
          "name": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "address": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "city": {
            "type": "array",
            "items": {
              "type": "string"
            }
          }
        }
      },
      "data": {
        "description": "",
        "type": "object",
        "properties": {
          "ssid": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "employeeid": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "startdate": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "enddate": {
            "type": "array",
            "items": {
              "type": "string"
            }
          }
        }
      },
      "deductions": {
        "description": "",
        "type": "object",
        "properties": {
          "deductions name": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "current": {
            "type": "array",
            "items": {
              "type": "string"
            }
          }
        }
      }
    }
  },
  "annotatedResponse": {
    "information": {
      "name": [
        "John Doe"
      ],
      "address": [
        "Dakota Avenue Powder River, WY 82648"
      ],
      "city": [
        "Powder River, WY 82648"
      ]
    },
    "data": {
      "ssid": [
        "123-45-6789"
      ],
      "employeeid": [
        "34528"
      ],
      "startdate": [
        "06/15/2018"
      ],
      "enddate": [
        "06/30/2018"
      ]
    },
    "deductions": {
      "deductions name": [
        "Federal Tax",
        "Wyoming State Tax",
        "SDI",
        "Soc Sec / OASDI",
        "Health Insurance Tax",
        "None"
      ],
      "current": [
        "82.50",
        "64.08",
        "None",
        "13.32",
        "91.74",
        "21.46"
      ]
    }
  },
  "modelResponse": {}
}

エクスポートされたデータを使用する

Document AI モデルビルドをエクスポートした後、さらに処理するために、エクスポートされたデータでテーブルを作成することができます。

  1. 注釈ファイルのファイル形式を作成します。

    CREATE OR REPLACE FILE FORMAT my_json
      TYPE = 'JSON';
    
    Copy
  2. テーブルを作成します。

    CREATE OR REPLACE TABLE exported_data_table AS (
       SELECT
          input_file.$1:file AS file,
          input_file.$1:prompt AS prompt,
          input_file.$1:annotatedResponse AS response
       FROM '@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10/annotations.jsonl' (FILE_FORMAT => my_json) input_file
       WHERE response != '{}'
    );
    
    Copy

Snowflakeでさらに使用するためにエクスポートされたデータをデータセットに変換する、またはそのデータを使用して AI_EXTRACT 関数を実行することができます。

  • エクスポートされたデータのデータセットを作成します。

    CREATE DATASET my_dataset;
    
    ALTER DATASET my_dataset
    ADD VERSION 'v2' FROM (
      SELECT
        CONCAT('@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10/', file) AS file,
        prompt,
        response
      FROM exported_data_table
    );
    
    Copy

    データセットの詳細については、 Snowflake Datasets をご参照ください。

  • エクスポートされたデータを使用して AI_EXTRACT を実行します。

    SELECT
    AI_EXTRACT (
      file => TO_FILE('@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10', my_table.file),
      responseFormat => PARSE_JSON('{ "schema": ' || TO_VARIANT(my_table.schema) || '}')
      )
    FROM docai_db.docai_schema.exported_data_table AS my_table;
    
    Copy