Document AI¶
O que é Document AI¶
Document AI é uma recurso de AI da Snowflake que usa o Arctic-TILT, um modelo de linguagem grande (LLM) proprietário, para extrair dados de documentos. A Document AI processa documentos de vários formatos e extrai informações tanto de parágrafos com muito texto quanto de conteúdo em formato gráfico, como logotipos, texto manuscrito (assinaturas) ou marcas de verificação. Com a Document AI, você pode preparar pipelines para processamento contínuo de novos documentos de um tipo específico, como faturas ou extratos financeiros.
A Document AI fornece extração zero-shot e ajuste fino. Zero-shot significa que o modelo de base pode localizar e extrair informações específicas de um tipo de documento, mesmo que o modelo nunca tenha visto o documento antes. Isso ocorre porque o modelo de base é treinado em um grande volume de documentos diversos, de modo que o modelo entende amplamente o tipo de documento que está sendo processado.
Além disso, você pode ajustar o modelo Arctic-TILT da Snowflake a melhorar seus resultados treinando o modelo nos documentos específicos de seu caso de uso. O modelo ajustado (incluindo os dados de treinamento usados) está disponível somente para você e não é compartilhado com outros clientes Snowflake.
Quando usar a Document AI¶
A Document AI é melhor empregada quando:
Você quer transformar dados não estruturados de documentos em dados estruturados em tabelas.
Você deseja criar pipelines para processamento contínuo de novos documentos de um tipo específico.
Os usuários empresariais com conhecimento de domínio preparam o modelo e os engenheiros de dados que trabalham com SQL preparam pipelines para automatizar o processamento de novos documentos.
Como a Document AI funciona¶
O trabalho com Document AI é dividido em duas fases:
Preparação de uma compilação de modelo de Document AI
Você pode pensar na compilação de modelo como a representação de um único tipo de documento ou um caso de uso; por exemplo, uma compilação de modelo para extrair informações de faturas. A compilação de modelo da Document AI inclui o modelo, os valores de dados a serem extraídos e os documentos carregados para testar e treinar o modelo.
Você prepara a compilação do modelo por meio de uma interface de usuário Document AI no Snowsight. A interface permite que você crie uma versão do modelo, carregue documentos para testar e treinar o modelo, defina valores de dados (informações a serem extraídas) fazendo perguntas usando linguagem natural, avalie o modelo e publique a versão do modelo ou ajuste o modelo para melhorar os resultados.
Para obter mais informações, consulte Preparação de uma compilação de modelo de Document AI.
Extração de informações de documentos
Quando a compilação do modelo estiver pronta, você pode começar a extrair informações dos documentos executando uma consulta de extração, que usa o método <nome_da_construção_do_modelo> !PREDICT. Você pode então usar a consulta de extração para criar pipelines e processar fluxos e tarefas de forma contínua.
Para obter mais informações, consulte Extração de informações com a Document AI.
Nota
Os documentos a serem processados usando o método <nome_da_construção_do_modelo> !PREDICT devem ser armazenados em um estágio interno ou externo.
Para começar a usar o Document AI, consulte Tutorial: Crie um pipeline de processamento de documentos com a AI de documento.
Histórico de versão do modelo do Document AI¶
Todas as compilações de modelo criadas após 6 de agosto de 2024 usam uma nova versão do modelo Arctic-TILT.
Data de lançamento da versão do modelo |
Melhorias na versão do modelo |
---|---|
|
|
|
Avisos legais¶
A classificação dos dados de entradas e saídas é definido na tabela a seguir.
Classificação de dados de entrada |
Classificação de dados de saída |
Designação |
---|---|---|
Usage Data |
Customer Data |
Covered AI Features [1] |
Para obter informações adicionais, consulte AI e ML Snowflake.