Exporter des versions intermédiaires du modèle Document AI

Vous pouvez exporter des versions intermédiaires du modèle Document AI vers une zone de préparation interne. En conséquence, les fichiers de documents sont exportés, et le fichier d’annotations est généré. Vous pouvez ensuite utiliser les données exportées à diverses fins, telles que la création de Ensembles de données Snowflake et l’extraction d’informations à l’aide de la fonction AI_EXTRACT.

Conditions préalables

  • Pour utiliser Document AI, vous devez disposer des privilèges requis. Pour plus d’informations sur les privilèges, voir Configuration de Document AI.

  • Pour exporter une version intermédiaire du modèle Document AI, vous devez disposer du privilège WRITE sur une zone de préparation cible.

    Note

    La zone de préparation cible doit être une zone de préparation interne.

Exporter une version intermédiaire du modèle Document AI

  1. Connectez-vous à Snowsight.

  2. Dans le menu de navigation, sélectionnez AI & ML » Document AI.

  3. Sélectionnez un entrepôt.

    La liste des versions intermédiaires de modèles existants s’affiche.

  4. Sélectionnez le menu (plus) à côté du nom de la version intermédiaire du modèle, puis sélectionnez Export.

  5. Dans la boîte de dialogue Export Build qui s’affiche, sélectionnez une zone de préparation cible dans la liste, puis confirmez en cliquant sur Export.

  6. Lorsque le processus d’exportation est terminé, fermez la boîte de dialogue en cliquant sur Close.

    Note

    Vous pouvez fermer la boîte de dialogue avant que le processus d’exportation ne soit terminé. La fermeture de la boîte de dialogue n’annule pas le processus d’exportation.

    La version intermédiaire du modèle est exportée vers la zone de préparation cible. Cela signifie que le répertoire de la zone de préparation cible contient maintenant tous les documents de la dernière version de cette version intermédiaire du modèle Document AI, ainsi que le fichier annotations.jsonl.

Le fichier d’annotations

Lorsque vous exportez une version intermédiaire du modèle Document AI, le fichier annotations.jsonl est généré dans le répertoire de la zone de préparation cible. Pour chaque document que vous exportez, le fichier contient les informations suivantes :

  • file : Identificateur du nom de fichier

  • prompt : schéma JSON qui décrit les invites

  • annotatedResponse : Réponses des utilisateurs dans un format cohérent avec le schéma

  • modelResponse : Réponses non modifiées par l’utilisateur

Considérons l’exemple de ligne suivant extrait du fichier annotations.jsonl :

{
  "file": "5d8c22ebe1e9a9b4bc92f611c02a745b_00.pdf",
  "prompt": {
    "type": "object",
    "properties": {
      "information": {
        "description": "Employee information",
        "type": "object",
        "properties": {
          "name": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "address": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "city": {
            "type": "array",
            "items": {
              "type": "string"
            }
          }
        }
      },
      "data": {
        "description": "",
        "type": "object",
        "properties": {
          "ssid": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "employeeid": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "startdate": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "enddate": {
            "type": "array",
            "items": {
              "type": "string"
            }
          }
        }
      },
      "deductions": {
        "description": "",
        "type": "object",
        "properties": {
          "deductions name": {
            "type": "array",
            "items": {
              "type": "string"
            }
          },
          "current": {
            "type": "array",
            "items": {
              "type": "string"
            }
          }
        }
      }
    }
  },
  "annotatedResponse": {
    "information": {
      "name": [
        "John Doe"
      ],
      "address": [
        "Dakota Avenue Powder River, WY 82648"
      ],
      "city": [
        "Powder River, WY 82648"
      ]
    },
    "data": {
      "ssid": [
        "123-45-6789"
      ],
      "employeeid": [
        "34528"
      ],
      "startdate": [
        "06/15/2018"
      ],
      "enddate": [
        "06/30/2018"
      ]
    },
    "deductions": {
      "deductions name": [
        "Federal Tax",
        "Wyoming State Tax",
        "SDI",
        "Soc Sec / OASDI",
        "Health Insurance Tax",
        "None"
      ],
      "current": [
        "82.50",
        "64.08",
        "None",
        "13.32",
        "91.74",
        "21.46"
      ]
    }
  },
  "modelResponse": {}
}

Travailler avec les données exportées

Après l’exportation d’une version intermédiaire du modèle Document AI, vous pouvez créer une table avec les données exportées pour un traitement ultérieur :

  1. Créez un format de fichier pour le fichier d’annotations :

    CREATE OR REPLACE FILE FORMAT my_json
      TYPE = 'JSON';
    
    Copy
  2. Créez une table :

    CREATE OR REPLACE TABLE exported_data_table AS (
       SELECT
          input_file.$1:file AS file,
          input_file.$1:prompt AS prompt,
          input_file.$1:annotatedResponse AS response
       FROM '@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10/annotations.jsonl' (FILE_FORMAT => my_json) input_file
       WHERE response != '{}'
    );
    
    Copy

Vous pouvez maintenant soit convertir les données exportées en un ensemble de données pour une utilisation ultérieure dans Snowflake, soit exécuter la fonction AI_EXTRACT en utilisant ces données :

  • Créez un ensemble de données pour les données exportées :

    CREATE DATASET my_dataset;
    
    ALTER DATASET my_dataset
    ADD VERSION 'v2' FROM (
      SELECT
        CONCAT('@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10/', file) AS file,
        prompt,
        response
      FROM exported_data_table
    );
    
    Copy

    Pour plus d’informations sur les ensembles de données, consultez Ensembles de données Snowflake.

  • Exécutez AI_EXTRACT en utilisant les données exportées :

    SELECT
    AI_EXTRACT (
      file => TO_FILE('@docai_db.docai_schema.docai_stage/docai_test_2025_10_03_16_00_10', my_table.file),
      responseFormat => PARSE_JSON('{ "schema": ' || TO_VARIANT(my_table.schema) || '}')
      )
    FROM docai_db.docai_schema.exported_data_table AS my_table;
    
    Copy