Document AI 모델 빌드 내보내기

Document AI 모델 빌드를 내부 스테이지에 내보낼 수 있습니다. 그러면 문서 파일이 내보내지고 주석 파일이 생성됩니다. 그런 다음 내보낸 데이터를 Snowflake 데이터 세트 생성 및 AI_EXTRACT 함수를 사용한 정보 추출과 같은 다양한 목적으로 사용할 수 있습니다.

전제 조건

  • |document-ai|를 사용하려면 필요한 권한이 있어야 합니다. 권한에 대한 자세한 내용은 Document AI 설정하기 섹션을 참조하십시오.

  • Document AI 모델 빌드를 내보내려면 대상 스테이지에 대한 WRITE 권한이 있어야 합니다.

    참고

    대상 스테이지는 내부 스테이지여야 합니다.

Document AI 모델 빌드 내보내기

  1. Snowsight 에 로그인합니다.

  2. 탐색 메뉴에서 AI & ML » Document AI 를 선택합니다.

  3. 웨어하우스를 선택합니다.

    기존 모델 빌드 목록이 나타납니다.

  4. 모델 빌드 이름 옆의 (더 보기) 메뉴를 선택한 다음 Export 를 선택합니다.

  5. 표시되는 Export Build 대화 상자의 목록에서 대상 스테이지를 선택한 다음 :ui:`Export`를 선택하여 확인합니다.

  6. 내보내기 프로세스가 완료되면 :ui:`Close`를 선택하여 대화 상자를 닫습니다.

    참고

    내보내기 프로세스가 완료되기 전에 대화 상자를 닫을 수 있습니다. 대화 상자를 닫아도 내보내기 프로세스가 취소되지는 않습니다.

    모델 빌드가 대상 스테이지로 내보내집니다. 즉, 이제 대상 스테이지 디렉터리에 해당 Document AI 모델 빌드의 최신 버전 및 annotations.jsonl 파일의 모든 문서가 포함됩니다.

주석 파일

Document AI 모델 빌드를 내보내는 경우 annotations.jsonl 파일은 대상 스테이지 디렉터리에 생성됩니다. 내보내는 각 문서의 경우 파일에는 다음 정보가 포함됩니다.

  • file: 파일 이름 식별자

  • prompt: 프롬프트를 설명하는 JSON 스키마

  • annotatedResponse: 스키마와 일치하는 형식의 사용자 응답

  • modelResponse: 사용자가 수정하지 않은 응답

annotations.jsonl 파일의 다음 예제 줄을 살펴봅니다.

{
  "file": "5d8c22ebe1e9a9b4bc92f611c02a745b_00.pdf",
  "prompt": {
    "type": "object",
    "properties": {
      "information": {
        "description": "Employee information",
        "type": "object",
        "properties": {
          "name": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "address": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "city": {
            "type": "array",
            "items": {
              "type": "string"
            }
          }
        }
      },
      "data": {
        "description": "",
        "type": "object",
        "properties": {
          "ssid": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "employeeid": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "startdate": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "enddate": {
            "type": "array",
            "items": {
              "type": "string"
            }
          }
        }
      },
      "deductions": {
        "description": "",
        "type": "object",
        "properties": {
          "deductions name": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "current": {
            "type": "array",
            "items": {
              "type": "string"
            }
          }
        }
      }
    }
  },
  "annotatedResponse": {
    "information": {
      "name": [
        "John Doe"
      ],
      "address": [
        "Dakota Avenue Powder River, WY 82648"
      ],
      "city": [
        "Powder River, WY 82648"
      ]
    },
    "data": {
      "ssid": [
        "123-45-6789"
      ],
      "employeeid": [
        "34528"
      ],
      "startdate": [
        "06/15/2018"
      ],
      "enddate": [
        "06/30/2018"
      ]
    },
    "deductions": {
      "deductions name": [
        "Federal Tax",
        "Wyoming State Tax",
        "SDI",
        "Soc Sec / OASDI",
        "Health Insurance Tax",
        "None"
      ],
      "current": [
        "82.50",
        "64.08",
        "None",
        "13.32",
        "91.74",
        "21.46"
      ]
    }
  },
  "modelResponse": {}
}

내보낸 데이터로 작업하기

Document AI 모델 빌드를 내보낸 후 추가 처리를 위해 내보낸 데이터로 테이블을 만들 수 있습니다.

  1. 주석 파일의 파일 형식을 만듭니다.

    CREATE OR REPLACE FILE FORMAT my_json
      TYPE = 'JSON';
    
    Copy
  2. 테이블을 만듭니다.

    CREATE OR REPLACE TABLE exported_data_table AS (
       SELECT
          input_file.$1:file AS file,
          input_file.$1:prompt AS prompt,
          input_file.$1:annotatedResponse AS response
       FROM '@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10/annotations.jsonl' (FILE_FORMAT => my_json) input_file
       WHERE response != '{}'
    );
    
    Copy

이제 내보낸 데이터를 데이터 세트로 변환하여 Snowflake에서 나중에 사용하거나 해당 데이터를 사용하는 AI_EXTRACT 함수를 실행할 수 있습니다.

  • 내보낸 데이터에 대한 데이터 세트를 만듭니다.

    CREATE DATASET my_dataset;
    
    ALTER DATASET my_dataset
    ADD VERSION 'v2' FROM (
      SELECT
        CONCAT('@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10/', file) AS file,
        prompt,
        response
      FROM exported_data_table
    );
    
    Copy

    데이터 세트에 대한 자세한 내용은 Snowflake 데이터 세트 섹션을 참조하세요.

  • 내보낸 데이터를 사용하여 AI_EXTRACT를 실행합니다.

    SELECT
    AI_EXTRACT (
      file => TO_FILE('@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10', my_table.file),
      responseFormat => PARSE_JSON('{ "schema": ' || TO_VARIANT(my_table.schema) || '}')
      )
    FROM docai_db.docai_schema.exported_data_table AS my_table;
    
    Copy