Exportar compilações de modelo do Document AI

Você pode exportar compilações de modelo do Document AI para uma área de preparação interna. Como resultado, os arquivos de documento são exportados e o arquivo de anotações é gerado. Você pode usar os dados exportados para vários fins, como criar Conjuntos de dados do Snowflake e extrair informações usando a função AI_EXTRACT.

Pré-requisitos

  • Para usar o Document AI, você deve ter os privilégios necessários. Para obter mais informações sobre os privilégios, consulte Configuração de Document AI.

  • Para exportar uma compilação de modelo do Document AI, você deve ter o privilégio WRITE em uma área de preparação de destino.

    Nota

    A área de preparação de destino deve ser interna.

Exportar uma compilação de modelo do Document AI

  1. Faça login no Snowsight.

  2. In the navigation menu, select AI & ML » AI Studio.

  3. Ao lado de Document Processing Playground, selecione Open. No Document Processing Playground, selecione Go to Document AI model builds para acessar a Document AI.

  4. Selecione um warehouse.

    A lista de compilações de modelo existentes é exibida.

  5. Selecione o menu (mais) ao lado do nome da compilação de modelo e escolha Export.

  6. Na caixa de diálogo Export Build que aparece, selecione uma área de preparação de destino na lista e confirme selecionando Export.

  7. Quando o processo de exportação for concluído, feche a caixa de diálogo selecionando Close.

    Nota

    Você pode fechar a caixa de diálogo antes que o processo de exportação seja concluído. Fechar a caixa de diálogo não cancela o processo de exportação.

    A compilação do modelo é exportada para a área de preparação de destino. Isso significa que o diretório da área de preparação de destino agora contém todos os documentos da versão mais recente dessa compilação de modelo do Document AI e o arquivo annotations.jsonl.

O arquivo de anotações

Quando você exporta uma compilação de modelo do Document AI, o arquivo annotations.jsonl é gerado no diretório de destino. Para cada documento exportado, o arquivo contém as seguintes informações:

  • file: Identificador do nome do arquivo

  • prompt: esquema JSON que descreve os prompts

  • annotatedResponse: Respostas do usuário em um formato consistente com o esquema

  • modelResponse: Respostas que não foram modificadas pelo usuário

Considere o seguinte exemplo de linha do arquivo annotations.jsonl:

{
  "file": "13c36c6a8c98acc95b797f03cc4c6d38.pdf",
  "prompt": {
    "type": "object",
    "properties": {
      "table": {
        "description": "earning statement",
        "type": "object",
        "properties": {
          "deductions": {
            "description": "deductions",
            "type": "array"
          },
          "current total": {
            "description": "current total",
            "type": "array"
          }
        }
      },
      "name": {
        "description": "what is the name",
        "type": "array"
      },
      "address": {
        "description": "what is the address",
        "type": "array"
      }
    }
  },
  "annotatedResponse": {
    "table": {
      "deductions": [
        "9,897.82",
        "CPP",
        "El",
        "INCOME TAX",
        "UNION DUES",
        "LIFE INSURANCE",
        "LONG TERM DISABILITY",
        "CANADA SAVING BONDS"
      ],
      "current total": [
        "None",
        "65.03",
        "28.62",
        "305.90",
        "10.84",
        "4.94",
        "7.01",
        "8.00"
      ]
    },
    "name": [
      "ACME"
    ],
    "address": [
      "200 billing rd, suite 100, needham, MA 02494"
    ]
  },
  "modelResponse": {}
}

Trabalhar com os dados exportados

Após exportar uma compilação de modelo do Document AI, você pode criar uma tabela com os dados exportados para processamento posterior:

  1. Criar um formato de arquivo para o arquivo de anotações:

    CREATE OR REPLACE FILE FORMAT my_json
      TYPE = 'JSON';
    
    Copy
  2. Crie uma tabela:

    CREATE OR REPLACE TABLE exported_data_table AS (
       SELECT
          input_file.$1:file AS file,
          input_file.$1:prompt AS prompt,
          input_file.$1:annotatedResponse AS response
       FROM '@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10/annotations.jsonl' (FILE_FORMAT => my_json) input_file
       WHERE response != '{}'
    );
    
    Copy

Agora você pode converter os dados exportados em um conjunto de dados para uso posterior no Snowflake ou executar a função AI_EXTRACT usando estes dados:

  • Crie um conjunto de dados para os dados exportados:

    CREATE DATASET my_dataset;
    
    ALTER DATASET my_dataset
    ADD VERSION 'v2' FROM (
      SELECT
        CONCAT('@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10/', file) AS file,
        prompt,
        response
      FROM exported_data_table
    );
    
    Copy

    Para obter mais informações sobre conjuntos de dados, consulte Conjuntos de dados do Snowflake.

  • Executar AI_EXTRACT usando os dados exportados:

    SELECT
    AI_EXTRACT (
      file => TO_FILE('@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10', my_table.file),
      responseFormat => PARSE_JSON('{ "schema": ' || TO_VARIANT(my_table.prompt) || '}')
      )
    FROM docai_db.docai_schema.exported_data_table AS my_table;
    
    Copy