Preparação de uma compilação de modelo de Document AI

Este tópico descreve o preparo de uma compilação de modelo de Document AI.

Você cria e gerencia compilações de modelo de Document AI no Snowsight. A compilação de modelo de Document AI representa um único tipo de documento; por exemplo, uma compilação de modelo para extrair informações de faturas. A compilação de modelo da Document AI inclui o modelo, os valores de dados a serem extraídos e os documentos carregados para testar e treinar o modelo.

A compilação de modelo de Document AI é uma instância da classe DOCUMENT_INTELLIGENCE. O Snowflake fornece a classe DOCUMENT_INTELLIGENCE no esquema SNOWFLAKE.ML. Para obter mais informações sobre as classes, consulte Classes Snowflake.

No Snowsight, a exibição da compilação de modelo da Document AI é dividida nas seguintes abas:

  • Build Details: Visualize informações sobre a compilação de modelo, como o número de documentos, o número de valores de dados a serem extraídos, a precisão do modelo e a consulta de extração.

  • Documents: Revise a lista de documentos enviados para testar e treinar o modelo.

  • Values: Visualize a lista de valores de dados a serem extraídos.

Para obter mais informações sobre funções e privilégios para a Document AI, consulte Configuração de Document AI.

Criação de um compilação de modelo de Document AI

  1. Entre no Snowsight usando uma função de conta concedida à função SNOWFLAKE.DOCUMENT_INTELLIGENCE_CREATOR.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

    A lista de compilações de modelo existentes é exibida.

  4. Selecione + Build.

  5. Na caixa de diálogo que aparece, insira um nome para sua compilação de modelo, selecione sua localização (banco de dados e esquema) e escolha Create.

    A compilação de modelo é criada.

Nota

  • A AI do documento não suporta aspas duplas em torno de identificadores para o banco de dados e esquema.

  • Document AI não oferece suporte à alteração de um banco de dados ou de um esquema onde a construção do modelo está localizada.

Exclusão de uma compilação de modelo da Document AI

Atenção

Quando você exclui a compilação de modelo da Document AI, você exclui o modelo e todos os documentos enviados usados para treiná-la. Antes de excluir uma compilação de modelo, certifique-se de que ela não faça parte de um pipeline de processamento de documentos. Se você excluir uma compilação de modelo usada em um pipeline de processamento de documentos, o pipeline falhará.

O Snowflake não mantém nenhum dado da compilação de modelo, portanto, as compilações de modelo e os dados de treinamento excluídos não podem ser recuperados; eles devem ser recriados.

Para excluir uma compilação de modelo da Document AI, incluindo os documentos enviados para a compilação de modelo:

  1. Faça login na Snowsight.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

  4. Selecione o menu (mais) ao lado do nome da compilação de modelo e escolha Delete.

  5. Para confirmar a exclusão, na caixa de diálogo Delete Build, selecione Delete.

Upload de documentos para uma compilação de modelo de Document AI

Para testar e treinar o modelo da Document AI, adicione manualmente os documentos à sua compilação de modelo no Snowsight.

Nota

Antes de carregar documentos para a compilação de modelo, certifique-se de que os documentos atendem aos requisitos listados em Como preparar seus documentos para a Document AI.

Para carregar documentos para uma compilação de modelo da Document AI:

  1. Faça login na Snowsight.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

  4. Na lista de compilações de modelo, selecione o nome da compilação à qual deseja adicionar documentos.

  5. Selecione a guia Build Details.

  6. Selecione Upload documents.

  7. Selecione Browse ou arraste os documentos para uma caixa de diálogo.

  8. Selecione Upload.

Depois de carregar o documento, você pode exibição seu status na guia Documents.

O documento pode ter um dos seguintes status:

  • Processando: o documento está sendo processado por OCR.

  • Para revisar: o processo de OCR foi bem-sucedido e agora você pode revisar o documento.

  • Em andamento: a revisão está em andamento, o que significa que você tem pelo menos um valor definido para este documento.

  • Aceito: você revisou o documento e aceitou todos os valores.

  • Erro: ocorreu um erro durante o OCR.

Exclusão de documentos de uma compilação de modelo Document AI

Atenção

Você não pode excluir documentos que foram usados para treinamento.

Ao excluir um documento, você também exclui os valores de dados revisados naquele documento.

Para excluir documentos de uma compilação de modelo Document AI:

  1. Faça login na Snowsight.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

  4. Na lista de compilações de modelo, selecione o nome da compilação de modelo.

  5. Selecione a guia Documents.

  6. Selecione o menu (mais) ao lado do nome do documento e depois selecione Delete.

  7. Para confirmar a exclusão, na caixa de diálogo Delete Document, selecione Delete.

Definição de valores para uma compilação de modelo de Document AI

Valores de dados são as informações que você deseja extrair dos documentos.

Para definir valores para a compilação de modelo de Document AI:

  1. Faça login na Snowsight.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

  4. Na lista de compilações de modelo, selecione o nome da compilação de modelo que deseja definir os valores.

  5. Selecione a guia Build Details.

  6. Selecione Define values.

  7. Na exibição Documents review, selecione o tipo de processamento de documentos para a construção do modelo:

    • Para a extração de entidades, selecione + Entity.

    • Para a extração de tabelas, selecione + Table. (Versão preliminar)

Nota

Para alternar entre a extração de entidades e tabelas, remova todos os valores e selecione o tipo de processamento de documentos. Você pode alterar o tipo de processamento até publicar ou treinar o modelo.

Definição de valores para extração de entidades

Para cada valor, insira um nome de valor e uma pergunta feita em linguagem natural. Para obter mais informações sobre como otimizar perguntas para o modelo, consulte Otimização de perguntas para extrair informações com a Document AI.

Como resultado desse procedimento, o modelo fornece uma resposta à pergunta e uma pontuação de confiança. A pontuação de confiança descreve o quão confiante o modelo está de que a resposta está correta. Por exemplo, uma pontuação de confiança de 0.9 significa que há 90% de confiança de que a resposta está correta.

Definição de valores para extração de tabelas

Na extração de tabela, um único valor corresponde a uma tabela. O nome do valor é chamado de chave da tabela. Para extrair várias tabelas de um documento, defina um valor separado (chave da tabela) para cada tabela.

Para definir valores para a extração de tabelas:

  1. Faça login na Snowsight.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

  4. Na lista de compilações de modelo, selecione o nome da compilação de modelo que deseja definir os valores.

  5. Selecione a guia Build Details.

  6. Selecione Define values.

  7. Na exibição Documents review, selecione + Table:

  8. Para cada valor, insira uma chave de tabela, um localizador e nomes de coluna, onde:

    Explicação

    Exemplo

    Chave da tabela

    Uma chave exclusiva para distinguir o valor de outras

    stock_options

    Localizador (opcional)

    Um fragmento do documento em linguagem natural que ajuda a localizar a tabela; geralmente uma frase que descreve a tabela, como seu título ou um título de seção específico

    A summary of Stock Option Activity Transactions, Table 6

    Nomes de coluna

    Definidos em linguagem natural, conforme aparecem em um documento

    • Type of transaction

    • Number of options

    • Weighted average exercise price

  9. Selecione Extract.

  10. Opcional: para definir outra tabela, selecione + Table.

  11. Opcional: para remover um valor, selecione Ícone vertical de mais da AI de documento » Delete value.

Para obter informações sobre a revisão de tabelas, consulte Revisão das respostas para extração de tabelas.

Revise as respostas e avalie os resultados

Antes de usar o modelo da Document AI para extrair informações ou decidir treinar o modelo por meio de ajuste fino, você precisa revisar as respostas que o modelo fornece.

Revisão das respostas para extração de entidades

Ao revisar as respostas para a extração de entidades, você pode se deparar com os seguintes cenários:

Resposta retornada

Ação do usuário

Correto

Marque a caixa de seleção. Confirme apenas as respostas que estão totalmente corretas.

Incorreto

Insira o valor correto manualmente.

Para revisar o valor fornecido pelo modelo após alterá-lo manualmente, selecione a seta para baixo.

Lista de respostas

Para remover respostas da lista ou adicionar mais respostas, selecione o menu (mais).

Nenhum

Se o documento contiver a resposta, insira o valor manualmente.

Se o documento não contiver a resposta, confirme a resposta em branco selecionando a marca de seleção.

Dica

É possível reordenar as respostas arrastando-as.

Para destacar a resposta em um documento, selecione Ícone de localizar resposta da AI de documento.

Revisão das respostas para extração de tabelas

Para revisar as respostas para a extração de tabelas depois que você definir os valores:

  1. Faça login na Snowsight.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

  4. Na lista de compilações de modelo, selecione o nome da compilação de modelo que deseja definir os valores.

  5. Selecione a guia Build Details.

  6. Selecione Define values.

  7. Na exibição Documents review, para uma determinada tabela (valor), selecione Preview » Review table.

  8. Se uma célula da tabela não estiver correta, faça alterações para corrigir a célula.

  9. Quando todas as células da tabela estiverem corretas, selecione Validate all.

Dica

Você pode reordenar as linhas de uma tabela arrastando-as.

Para adicionar ou remover uma linha, passe o mouse à esquerda de uma linha da tabela e selecione Ícone de indicador de arrastar da AI de documento.

Avaliação de um modelo de Document AI

Para avaliar um modelo de Document AI (seja o modelo de base ou o modelo com ajuste fino), analise a precisão. A precisão descreve a frequência com que o modelo fornece uma resposta correta. Uma precisão maior indica que o modelo é melhor em extração. Para verificar a precisão, revise as respostas a todas as perguntas.

Para visualizar a precisão:

  1. Faça login na Snowsight.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

  4. Na lista de compilações de modelo, selecione o nome da compilação de modelo a ser avaliada.

  5. Selecione a aba Build Details, que exibe Model accuracy.

Se o modelo da Document AI responde às suas perguntas de forma confiável e a precisão é satisfatória, publique a compilação de modelo. Consulte Publicação de um compilação de modelo de Document AI.

Para melhorar os resultados do modelo da Document AI, treine o modelo. Consulte Treinamento de um modelo de Document AI.

Dica

Para avaliar o modelo da Document AI após o treinamento, revise os documentos recém-carregados.

Publicação de um compilação de modelo de Document AI

  1. Faça login na Snowsight.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

  4. Na lista de compilações de modelo, selecione o nome da compilação de modelo a ser publicada.

  5. Selecione a guia Build Details.

  6. Em Model accuracy, selecione Publish version.

  7. Na caixa de diálogo que aparece, selecione Publish para confirmar.

Após publicar a compilação de modelo, você pode ver uma consulta de extração.

Se você adicionou novos valores de dados (fez novas perguntas) depois de treinar o modelo ou publicar a compilação de modelo, você deve publicar a compilação de modelo novamente.

Treinamento de um modelo de Document AI

O modelo básico (o modelo Snowflake Arctic-TILT) já foi treinado e ajustado previamente, mas é possível aumentar a precisão ajustando o modelo básico em seus documentos por meio do ajuste fino supervisionado. Durante o treinamento, os parâmetros do modelo base são adaptados aos documentos e anotações fornecidos por você. Todos os modelos resultantes do treinamento são salvos na criação de modelos em sua conta.

A Snowflake recomenda revisar os resultados de pelo menos 20 documentos antes do treinamento.

Dica

Para avaliar a qualidade do modelo, divida seus documentos em dois conjuntos. Revise um conjunto de documentos e use os documentos não revisados para avaliar o modelo após o treinamento.

Para começar a treinar o modelo:

  1. Faça login na Snowsight.

  2. No menu de navegação, selecione AI & ML » Document AI.

  3. Selecione um warehouse.

  4. Na lista de compilações de modelos, selecione o nome da compilação de modelo a ser treinada.

  5. Selecione a guia Build Details.

  6. Em Model accuracy, selecione Train model.

  7. Na caixa de diálogo que aparece, selecione Start training para confirmar.

Quando o treinamento estiver concluído, uma notificação será exibida.

Agora você pode reavaliar seu modelo de Document AI. Para ver a precisão do modelo com ajuste fino após o treinamento, revise o segundo conjunto de documentos. Observe que você pode ajustar seu modelo diversas vezes para obter resultados satisfatórios.

Você não precisa publicar a compilação de modelo se treinou o modelo e não adicionou novos valores de dados (fez novas perguntas) após o treinamento.

Nota

Você pode iniciar vários treinamentos para várias compilações de modelos ao mesmo tempo. Observe que os treinamentos são enfileirados e você não pode executar mais do que três treinamentos ao mesmo tempo.

Estimativa de tempo de treinamento

O tempo de treinamento de um modelo de Document AI depende tanto do número de valores a serem extraídos quanto do número de páginas em um documento.

A tabela a seguir lista o tempo estimado de treinamento para um lote de 20 documentos (o número mínimo necessário para treinamento) e 10 valores, dependendo do número de páginas em cada documento.

Número de páginas em cada documento

Tempo estimado de treinamento para 20 documentos (horas)

1

0,5

10

1,5

25

4

50

8

75

12,5

100

16,5

125

20,5

Nota

A tabela lista o tempo estimado de treinamento. Observe que o tempo real necessário para o treinamento pode variar. Geralmente, dobrar o número de valores ou o número de documentos dobra o tempo de treinamento.

O tempo máximo de treinamento é de 48 horas.