Preparação de uma compilação de modelo de Document AI

Este tópico descreve o preparo de uma compilação de modelo de Document AI.

Você cria e gerencia compilações de modelo de Document AI no Snowsight. A compilação de modelo de Document AI representa um único tipo de documento; por exemplo, uma compilação de modelo para extrair informações de faturas. A compilação de modelo da Document AI inclui o modelo, os valores de dados a serem extraídos e os documentos carregados para testar e treinar o modelo.

A compilação de modelo de Document AI é uma instância da classe DOCUMENT_INTELLIGENCE. O Snowflake fornece a classe DOCUMENT_INTELLIGENCE no esquema SNOWFLAKE.ML. Para obter mais informações sobre as classes, consulte Classes Snowflake.

No Snowsight, a exibição da compilação de modelo da Document AI é dividida nas seguintes abas:

  • Build Details: Visualize informações sobre a compilação de modelo, como o número de documentos, o número de valores de dados a serem extraídos, a precisão do modelo e a consulta de extração.

  • Documents: Revise a lista de documentos enviados para testar e treinar o modelo.

  • Values: Visualize a lista de valores de dados a serem extraídos.

Para obter mais informações sobre funções e privilégios para a Document AI, consulte Configuração de Document AI.

Criação de um compilação de modelo de Document AI

  1. Entre no Snowsight usando uma função de conta concedida à função SNOWFLAKE.DOCUMENT_INTELLIGENCE_CREATOR.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

    A lista de compilações de modelo existentes é exibida.

  4. Selecione + Build.

  5. Na caixa de diálogo que aparece, insira um nome para sua compilação de modelo, selecione sua localização (banco de dados e esquema) e escolha Create.

    A compilação de modelo é criada.

Nota

  • A AI do documento não suporta aspas duplas em torno de identificadores para o banco de dados e esquema.

  • Document AI não oferece suporte à alteração de um banco de dados ou de um esquema onde a construção do modelo está localizada.

Exclusão de uma compilação de modelo da Document AI

Atenção

Quando você exclui a compilação de modelo da Document AI, você exclui o modelo e todos os documentos enviados usados para treiná-la. Antes de excluir uma compilação de modelo, certifique-se de que ela não faça parte de um pipeline de processamento de documentos. Se você excluir uma compilação de modelo usada em um pipeline de processamento de documentos, o pipeline falhará.

O Snowflake não mantém nenhum dado da compilação de modelo, portanto, as compilações de modelo e os dados de treinamento excluídos não podem ser recuperados; eles devem ser recriados.

Para excluir uma compilação de modelo da Document AI, incluindo os documentos enviados para a compilação de modelo:

  1. Faça login no Snowsight.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

  4. Selecione o menu (mais) ao lado do nome da compilação de modelo e escolha Delete.

  5. Para confirmar a exclusão, na caixa de diálogo Delete Build, selecione Delete.

Upload de documentos para uma compilação de modelo de Document AI

Para testar e treinar o modelo da Document AI, adicione manualmente os documentos à sua compilação de modelo no Snowsight.

Nota

Antes de carregar documentos para a compilação de modelo, certifique-se de que os documentos atendem aos requisitos listados em Como preparar seus documentos para a Document AI.

Para carregar documentos para uma compilação de modelo da Document AI:

  1. Faça login no Snowsight.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

  4. Na lista de compilações de modelo, selecione o nome da compilação à qual deseja adicionar documentos.

  5. Selecione a guia Build Details.

  6. Selecione Upload documents.

  7. Selecione Browse ou arraste os documentos para uma caixa de diálogo.

  8. Selecione Upload.

Depois de carregar o documento, você pode exibição seu status na guia Documents.

O documento pode ter um dos seguintes status:

  • Processando: o documento está sendo processado por OCR.

  • Para revisar: o processo de OCR foi bem-sucedido e agora você pode revisar o documento.

  • Em andamento: a revisão está em andamento, o que significa que você tem pelo menos um valor definido para este documento.

  • Aceito: você revisou o documento e aceitou todos os valores.

  • Erro: ocorreu um erro durante o OCR.

Exclusão de documentos de uma compilação de modelo Document AI

Atenção

Você não pode excluir documentos que foram usados para treinamento.

Ao excluir um documento, você também exclui os valores de dados revisados naquele documento.

Para excluir documentos de uma compilação de modelo Document AI:

  1. Faça login no Snowsight.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

  4. Na lista de compilações de modelo, selecione o nome da compilação de modelo.

  5. Selecione a guia Documents.

  6. Selecione o menu (mais) ao lado do nome do documento e depois selecione Delete.

  7. Para confirmar a exclusão, na caixa de diálogo Delete Document, selecione Delete.

Definição de valores para uma compilação de modelo de Document AI

Valores de dados são as informações que você deseja extrair dos documentos. Um valor consiste em um nome de valor e uma pergunta feita em linguagem natural. Para obter mais informações sobre como otimizar perguntas para o modelo, consulte Otimização de perguntas para extrair informações com a Document AI.

Para definir valores para a compilação de modelo de Document AI:

  1. Faça login no Snowsight.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

  4. Na lista de compilações de modelo, selecione o nome da compilação de modelo que deseja definir os valores.

  5. Selecione a guia Build Details.

  6. Selecione Define values.

  7. Na exibição Documents review, selecione + Value:

  8. Para cada valor, insira um nome de valor e uma pergunta.

Como resultado desse procedimento, o modelo fornece uma resposta à pergunta e uma pontuação de confiança. A pontuação de confiança descreve o quão confiante o modelo está de que a resposta está correta. Por exemplo, uma pontuação de confiança de 0.9 significa que há 90% de confiança de que a resposta está correta.

Revise as respostas e avalie os resultados

Antes de usar o modelo da Document AI para extrair informações ou decidir treinar o modelo por meio de ajuste fino, você precisa revisar as respostas que o modelo fornece.

Ao revisar as respostas, você poderá encontrar os seguintes cenários:

Resposta retornada

Ação do usuário

Correto

Marque a caixa de seleção. Confirme apenas as respostas que estão totalmente corretas.

Incorreto

Insira o valor correto manualmente.

Para revisar o valor fornecido pelo modelo após alterá-lo manualmente, selecione a seta para baixo.

Lista de respostas

Para remover respostas da lista ou adicionar mais respostas, selecione o menu (mais).

Nenhum

Se o documento contiver a resposta, insira o valor manualmente.

Se o documento não contiver a resposta, confirme a resposta em branco selecionando a marca de seleção.

Avaliação de um modelo de Document AI

Para avaliar um modelo de Document AI (seja o modelo de base ou o modelo com ajuste fino), analise a precisão. A precisão descreve a frequência com que o modelo fornece uma resposta correta. Uma precisão maior indica que o modelo é melhor em extração. Para verificar a precisão, revise as respostas a todas as perguntas.

Para visualizar a precisão:

  1. Faça login no Snowsight.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

  4. Na lista de compilações de modelo, selecione o nome da compilação de modelo a ser avaliada.

  5. Selecione a aba Build Details, que exibe Model accuracy.

Se o modelo da Document AI responde às suas perguntas de forma confiável e a precisão é satisfatória, publique a compilação de modelo. Consulte Publicação de um compilação de modelo de Document AI.

Para melhorar os resultados do modelo da Document AI, treine o modelo. Consulte Treinamento de um modelo de Document AI.

Dica

Para avaliar o modelo da Document AI após o treinamento, revise os documentos recém-carregados.

Publicação de um compilação de modelo de Document AI

  1. Faça login no Snowsight.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

  4. Na lista de compilações de modelo, selecione o nome da compilação de modelo a ser publicada.

  5. Selecione a guia Build Details.

  6. Em Model accuracy, selecione Publish version.

  7. Na caixa de diálogo que aparece, selecione Publish para confirmar.

Após publicar a compilação de modelo, você pode ver uma consulta de extração.

Se você adicionou novos valores de dados (fez novas perguntas) depois de treinar o modelo ou publicar a compilação de modelo, você deve publicar a compilação de modelo novamente.

Treinamento de um modelo de Document AI

Se os resultados não forem satisfatórios, você pode treinar o modelo de Document AI para melhorar os resultados.

A Snowflake recomenda revisar os resultados de pelo menos 20 documentos antes do treinamento.

Dica

Para avaliar a qualidade do modelo, divida seus documentos em dois conjuntos. Revise um conjunto de documentos e use os documentos não revisados para avaliar o modelo após o treinamento.

Para começar a treinar o modelo:

  1. Faça login no Snowsight.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

  4. Na lista de compilações de modelos, selecione o nome da compilação de modelo a ser treinada.

  5. Selecione a guia Build Details.

  6. Em Model accuracy, selecione Train model.

  7. Na caixa de diálogo que aparece, selecione Start training para confirmar.

Quando o treinamento estiver concluído, uma notificação será exibida.

Agora você pode reavaliar seu modelo de Document AI. Para ver a precisão do modelo com ajuste fino após o treinamento, revise o segundo conjunto de documentos. Observe que você pode ajustar seu modelo diversas vezes para obter resultados satisfatórios.

Você não precisa publicar a compilação de modelo se treinou o modelo e não adicionou novos valores de dados (fez novas perguntas) após o treinamento.

Nota

Você pode iniciar vários treinamentos para várias compilações de modelos ao mesmo tempo. Observe que os treinamentos são enfileirados e você não pode executar mais do que três treinamentos ao mesmo tempo.

Estimativa de tempo de treinamento

O tempo de treinamento de um modelo de Document AI depende tanto do número de valores a serem extraídos quanto do número de páginas em um documento.

A tabela a seguir lista o tempo estimado de treinamento para um lote de 20 documentos (o número mínimo necessário para treinamento) e 10 valores, dependendo do número de páginas em cada documento.

Número de páginas em cada documento

Tempo estimado de treinamento para 20 documentos (horas)

1

0,5

10

1,5

25

4

50

8

75

12,5

100

16,5

125

20,5

Nota

A tabela lista o tempo estimado de treinamento. Observe que o tempo real necessário para o treinamento pode variar. Geralmente, dobrar o número de valores ou o número de documentos dobra o tempo de treinamento.

O tempo máximo de treinamento é de 48 horas. Se a quantidade de seus dados exceder esse limite, a possibilidade de treinamento será bloqueada.