Document AI

O que é Document AI

Document AI é um recurso do Snowflake AI que usa o Arctic-TILT, um modelo de linguagem grande (Large Language Model, LLM) proprietário, para extrair dados de documentos. O Document AI processa documentos de vários formatos e extrai informações tanto de parágrafos com muito texto quanto de conteúdo em formato gráfico, como logotipos, texto manuscrito (assinaturas), tabelas ou marcas de verificação. Com a Document AI, você pode preparar pipelines para processamento contínuo de novos documentos de um tipo específico, como faturas ou extratos financeiros. Você pode extrair informações de entidades (na forma de um único valor ou de uma lista de valores) ou de tabelas com base na lista de colunas especificadas.

A Document AI fornece extração zero-shot e ajuste fino. Zero-shot significa que o modelo de base pode localizar e extrair informações específicas de um tipo de documento, mesmo que o modelo nunca tenha visto o documento antes. Isso ocorre porque o modelo de base é treinado em um grande volume de documentos diversos, de modo que o modelo entende amplamente o tipo de documento que está sendo processado.

Além disso, você pode ajustar o modelo Arctic-TILT da Snowflake a melhorar seus resultados treinando o modelo nos documentos específicos de seu caso de uso. O modelo ajustado (incluindo os dados de treinamento usados) está disponível somente para você e não é compartilhado com outros clientes Snowflake.

Quando usar a Document AI

A Document AI é melhor empregada quando:

  • Você quer transformar dados não estruturados de documentos em dados estruturados em tabelas.

  • Você deseja criar pipelines para processamento contínuo de novos documentos de um tipo específico.

  • Os usuários empresariais com conhecimento de domínio preparam o modelo e os engenheiros de dados que trabalham com SQL preparam pipelines para automatizar o processamento de novos documentos.

Como a Document AI funciona

O trabalho com Document AI é dividido em duas fases:

  • Preparação de uma compilação de modelo de Document AI

    Você pode pensar na compilação de modelo como a representação de um único tipo de documento ou um caso de uso; por exemplo, uma compilação de modelo para extrair informações de faturas. A compilação de modelo da Document AI inclui o modelo, os valores de dados a serem extraídos e os documentos carregados para testar e treinar o modelo.

    Você prepara a compilação do modelo por meio de uma interface de usuário Document AI no Snowsight. A interface permite que você crie uma versão do modelo, carregue documentos para testar e treinar o modelo, defina valores de dados (informações a serem extraídas) fazendo perguntas usando linguagem natural, avalie o modelo e publique a versão do modelo ou ajuste o modelo para melhorar os resultados.

    Para obter mais informações, consulte Preparação de uma compilação de modelo de Document AI.

  • Extração de informações de documentos

    Quando a compilação do modelo estiver pronta, você pode começar a extrair informações dos documentos executando uma consulta de extração, que usa o método <model_build_name> !PREDICT. Você pode então usar a consulta de extração para criar pipelines e processar fluxos e tarefas de forma contínua.

    Para obter mais informações, consulte Extração de informações com a Document AI.

    Nota

    Os documentos a serem processados usando o método <model_build_name> !PREDICT devem ser armazenados em um estágio interno ou externo.

Visão geral da AI do documento

Para começar a usar o Document AI, consulte Tutorial: Crie um pipeline de processamento de documentos com a AI de documento.

Histórico de versão do modelo do Document AI

Para trabalhar com a versão mais recente do modelo Arctic-TILT, crie uma nova compilação do modelo Document AI.

Data de lançamento da versão do modelo

Melhorias na versão do modelo

May 8, 2025

  • Identificação da caixa de seleção

April 16, 2025

  • Suporte a idiomas como espanhol, francês, alemão, português, italiano e polonês

  • Diacríticos específicos do idioma

  • Qualidade geral do modelo

February 14, 2025

  • Identificação da caixa de seleção

  • Respostas a perguntas do tipo sim/não

  • Qualidade geral do modelo

6 de agosto de 2024

21 de junho de 2024

  • Extração de listas de valores

  • Identificação da caixa de seleção

  • Reconhecimento de paráfrase de consulta para melhorar o reconhecimento de consultas construídas como frases, como Dê-me a data do acordo