AI_COMPLETE com documentos

A AI_COMPLETE do Cortex é uma função de AI de uso geral que compreende os dados armazenados em PDF, Microsoft Word e outros formatos de arquivo de documento. Você pode usar a AI_COMPLETE para executar uma variedade de tarefas de extração de dados de documentos, como:

  • Responder a perguntas usando os dados em gráficos e tabelas

  • Encontrar relações entre gráficos e textos de documentos

  • Resumir o conteúdo do documento em uma pergunta específica

  • Extrair entidades de documentos

Uma vantagem da AI_COMPLETE em relação a outras funções de AI de processamento de documentos é a capacidade de escolher um modelo, para que você possa usar o melhor modelo para sua tarefa específica de processamento de documentos.

Processando documentos com AI_COMPLETE

A função COMPLETE processa arquivos de documentos armazenados em uma área de preparação interna do Snowflake ou em uma área de preparação externa. O prompt de conclusão pode fazer referência a um ou vários documentos. Por exemplo, você compara a exatidão de uma tradução de materiais de marketing fornecendo os documentos original e traduzido como entrada para a função, junto com um prompt que pede que o modelo avalie a qualidade da tradução.

Ao chamar a função, você deve especificar o modelo que será usado e um prompt. O prompt deve incluir as instruções junto com uma referência de objeto FILE para cada documento que você deseja processar. Consulte Exemplos para conferir prompts e preenchimentos de amostra, e AI_COMPLETE (objeto de prompt) para sintaxe de chamada de função.

Requisitos de entrada

A AI_COMPLETE é otimizada para documentos originalmente digitais e que foram digitalizados. A seguinte tabela lista as limitações e os requisitos dos documentos de entrada:

Tipos de arquivos compatíveis

Todos os modelos: .txt, .md, .pdf
Modelos Claude: .txt, .md, .pdf, .doc, .docx, .xls, .xlsx, .csv, .xhtml

Criptografia de estágio

Criptografia do lado do servidor

Tipo de dados

Objeto FILE

Nota

Atualmente, o processamento de arquivos de áreas de preparação com AI_COMPLETE é incompatível com políticas de rede personalizadas.

Exemplos

Os exemplos a seguir ilustram como usar AI_COMPLETE para processar documentos para três casos de uso comuns: perguntas e respostas de gráficos, resumo de documentos contextualizados e exploração de relatórios técnicos.

Exemplo de perguntas e respostas de gráficos

Página de título do relatório "Breaking the Gridlock" EU

O exemplo a seguir usa o modelo Claude Opus 4 da Anthropic para analisar os dados representados em um gráfico no contexto do documento hdr2023-24snapshoten.pdf armazenado na área de preparação @docs.

SELECT AI_COMPLETE(
  MODEL => 'claude-4-opus',
  PROMPT => PROMPT('Compare the distributions of HDI in each group: low HDI group, medium HDI group, high HDI group and very high HDI group visualized in {0}', TO_FILE('@docs', 'hdr2023-24snapshoten.pdf'))
);

Resposta:

Looking at the document, I can see Figure S.2 on page 6 which shows the recovery of HDI values since the 2020-2021
decline across different HDI groups. The visualization shows:

**Low HDI group**:
- 49% recovered
- 51% did not recover

**Medium HDI group**:
- The document doesn't provide specific recovery percentages for this group in the figure

**High HDI group**:
- The document doesn't provide specific recovery percentages for this group in the figure

**Very high HDI group**:
- 100% recovered (all OECD countries)

The document also provides additional insights about HDI distributions:

1. **Inequality trends** (Figure S.3, page 7): The inequality between very high HDI and low HDI countries has been
   increasing since 2020, reversing a long-term declining trend. The difference in HDI values between these groups
   increased from 0.38 in 2017 to 0.39 in 2020 and is projected to continue rising.

2. **Overall recovery patterns**: The text notes that "every Organisation for Economic Co-operation and Development
   country is projected to have recovered, but only about half of the Least Developed Countries are projected to have
   done so."

3. **Global HDI trajectory**: While the global HDI value is projected to reach a record high in 2023, it remains below
   its pre-2019 trend, suggesting a permanent shift in the development trajectory.

The document emphasizes the highly unequal nature of recovery across HDI groups, with countries in higher HDI
categories showing much stronger recovery rates than those in lower HDI categories.

Exemplo de resumo de documento contextualizado

Primeira página da EU Resolution 1008/2008

O exemplo a seguir usa o modelo Claude Sonnet 4 da Anthropic para extrair o resumo de um texto jurídico com layout complexo. O documento CELEX_32008R1008_EN_TXT.pdf está armazenado na área de preparação @docs. O prompt restringe o contexto do resumo.

SELECT AI_COMPLETE(
  MODEL => 'claude-4-sonnet',
  PROMPT => PROMPT('summarize the changes from the perspective of private aviation {0}', TO_FILE('@docs', 'CELEX_32008R1008_EN_TXT.pdf'))
);

Resposta:

From a private aviation perspective, this EU Regulation 1008/2008 introduces several significant changes that affect
private operators and business aviation:

## Key Changes Affecting Private Aviation:

### **Operating License Requirements**
- **Stricter financial oversight**: Private operators must demonstrate they can meet financial obligations for 24
  months from start of operations, with enhanced monitoring during the first two years
- **Simplified requirements for smaller operators**: Aircraft under 10 tonnes MTOM and/or less than 20 seats need
  only demonstrate €100,000 net capital (unless operating scheduled services or exceeding €3 million turnover)

### **Aircraft Registration and Leasing**
- **Flexible registration**: Private operators can register aircraft either in their home Member State or anywhere within the Community

- **Wet lease restrictions**: Stricter limitations on wet leasing aircraft from third countries, requiring prior
  approval and justification based on:
  - Exceptional needs (up to 7 months, renewable once)
  - Seasonal capacity requirements
  - Operational difficulties when EU-registered aircraft unavailable
- **Safety equivalence**: All third-country leased aircraft must meet equivalent safety standards to EU requirements.

### **Enhanced Supervision**

- **Unified oversight**: The same Member State authority now oversees both the Air Operator Certificate (AOC) and
  operating license, improving efficiency for operators with bases in multiple countries
- **Regular assessments**: Mandatory financial reviews, particularly after two years of operation and when potential
  problems are suspected

### **Insurance Requirements**
- **Extended coverage**: Insurance requirements now explicitly include mail liability coverage in addition to
  passengers, cargo, and third parties

### **Operational Flexibility**
- **Code-sharing freedom**: Private operators can more freely enter into code-share arrangements on intra-Community
  routes and routes to third countries
- **Pricing freedom**: Complete freedom to set fares and rates for intra-Community services

### **Administrative Streamlining**
- **Consolidated regulation**: The three separate regulations are now combined into one comprehensive framework,
  simplifying compliance
- **Reduced bureaucracy**: Member States cannot require documents already provided to licensing authorities

These changes generally **liberalize** private aviation operations within the EU while **strengthening** financial
and safety oversight, creating a more integrated and competitive market for private operators.

Exploração de relatório técnico

Primeira página do guia de especificações da arma de 75mm

O exemplo a seguir usa o modelo Gemini 3 Pro para analisar os dados de incidentes representados nos diagramas de um relatório técnico. O documento 75mm-M3-spec-booklet-MK-VI.pdf está armazenado na área de preparação @docs.

SELECT AI_COMPLETE(
  MODEL => 'gemini-3-pro',
  PROMPT => PROMPT('explain findings from figures 69-73 of {0}', TO_FILE('@docs', '75mm-M3-spec-booklet-MK-VI.pdf'))
);

Resposta:

Based on the provided document, specifically **page 4**, here is an explanation of the findings from Figures 69
through 73. These figures illustrate the fragmentation patterns and effectiveness of the **75-mm Shell, H.E., M48**
when fired from an M3 Gun. They visualize how dangerous the shell is to personnel (casualties) and equipment
(perforation of mild steel) at different burst heights and orientations.

Modelos e limitações compatíveis

Todos os modelos disponíveis para o Snowflake Cortex têm limitações quanto ao número total de tokens de entrada e saída, conhecido como janela de contexto do modelo. O tamanho da janela de contexto é medido em tokens. As entradas que excedem o limite da janela de contexto resultam em erro.

Para modelos de texto, os tokens geralmente representam cerca de quatro caracteres de texto. A contagem de palavras correspondente a um limite é um pouco menor do que a janela de contexto representada em tokens. Para modelos de imagem, a contagem de tokens por documento depende da arquitetura do modelo de visão. Os tokens em um prompt (por exemplo, «resuma este documento:») também contribuem para a janela de contexto do modelo.

Modelo

Janela de contexto (tokens)

Tipos de arquivo

Tamanho do arquivo

Documentos por prompt

gemini-3-pro

1.000.000

.pdf, .txt, .md

10MB, máx. de 900 páginas

20

claude-3-7-sonnet

200,000

.txt, .md, .pdf, .doc, .docx, .xls, .xlsx, .csv, .xhtml

4.5MB

5

claude-4-sonnet

200,000

.txt, .md, .pdf, .doc, .docx, .xls, .xlsx, .csv, .xhtml

4.5MB

5

claude-4-opus

200,000

.txt, .md, .pdf, .doc, .docx, .xls, .xlsx, .csv, .xhtml

4.5MB

5

claude-haiku-4-5

200,000

.txt, .md, .pdf, .doc, .docx, .xls, .xlsx, .csv, .xhtml

4.5MB

5

claude-sonnet-4-5

200,000

.txt, .md, .pdf, .doc, .docx, .xls, .xlsx, .csv, .xhtml

4.5MB

5

claude-opus-4-5

200,000

.txt, .md, .pdf, .doc, .docx, .xls, .xlsx, .csv, .xhtml

4.5MB

5

Requisitos de controle de acesso

Para usar a função AI_COMPLETE, um usuário com a função ACCOUNTADMIN deve conceder a função de banco de dados SNOWFLAKECORTEX_USER ao usuário que chamará a função. Veja o tópico Privilégios de LLM do Cortex para mais detalhes.

Os usuários também devem ter acesso READ à área de preparação e ao arquivo que está sendo processado.

Considerações sobre custo

O custo é determinado pelo número total de tokens processados, não pelo tamanho do arquivo. Quando os documentos são carregados, o conteúdo textual é extraído e convertido em tokens. Os segmentos visuais (imagens) da página também são transformados em tokens. O faturamento é baseado na soma de tokens de entrada (texto mais imagens que o modelo lê) e de tokens de saída (texto gerado pelo modelo).

As contagens reais de tokens variam de acordo com a arquitetura subjacente de um modelo, além da composição e estrutura do documento. O conteúdo, como tabelas densas, planilhas, dados estruturados, código, cabeçalhos e rodapés repetidos ou texto derivado de OCR, pode aumentar o volume do token. Por outro lado, documentos com muitas imagens ou baseados em slides com texto extraível mínimo podem resultar em contagens mais baixas de tokens.

Nota

A função AI_COUNT_TOKENS não oferece suporte a entradas de documentos em modelos multimodais no momento.

Escolha de um modelo

O benchmark MMLongBench-Doc é usado para avaliar a capacidade do modelo na compreensão multimodal e de contexto longo, incluindo a recuperação de informações entre páginas.

Modelo

Pontuação MMLongBench-Doc

claude-3-5-sonnet

46,8%

claude-3-7-sonnet

52,8%

claude-4-sonnet

50,2%

claude-4-opus

53%

claude-haiku-4-5

48,9%

claude-sonnet-4-5

61,4%

claude-opus-4-5

63,8%

claude-sonnet-4-6

62,3%

gemini-3-pro

60,5%

Disponibilidade regional

Consulte Disponibilidade regional.

Condições de erro

O Snowflake Cortex AI_COMPLETE pode produzir as seguintes mensagens de erro:

Mensagem

Explicação

_COMPLETE_WITH_PROMPT_HISTORY_LLM$V1 com erro de serviço remoto: 400 “«invalid request parameters: unsupported document content type: application/vnd.ms-excel»

O arquivo selecionado de um tipo incompatível (neste exemplo, um arquivo do Microsoft Excel). Somente os modelos Claude são compatíveis com arquivos do Excel.

Falha na solicitação para função externa _COMPLETE_WITH_PROMPT_HISTORY_LLM$V1 com erro de serviço remoto: 400 “«invalid request parameters: File data exceeds the limit of 10.00 MB for file prefix/file.pdf»

O tamanho do arquivo excede o limite (10MB, neste exemplo).

O arquivo remoto @docs/file.pdf” não foi encontrado. Existem várias causas possíveis. O arquivo pode não existir. As credenciais necessárias podem estar ausentes ou ser inválidas. Se você estiver executando um comando de cópia, certifique-se de que os arquivos não sejam excluídos quando estiverem sendo carregados, ou que não sejam carregados em duas tabelas diferentes simultaneamente com a opção de limpeza automática.

Possivelmente um erro no nome do arquivo. Os nomes de arquivo diferenciam maiúsculas de minúsculas. Ou o arquivo pode ter sido excluído.

Erro no objeto seguro

Pode indicar que a área de preparação não existe. Verifique o nome da área de preparação e certifique-se de que ela existe e é acessível. Certifique-se de usar um sinal de arroba (@) no início do nome da área de preparação. Certifique-se de que a área de preparação use criptografia no lado do servidor.

Falha na solicitação para função externa COMPLETE$V6 com erro de serviço remoto: 400 “«model "model_name" does not support given modality»

O modelo fornecido na solicitação não é compatível com a modalidade do documento ou texto.

Falha na solicitação para função externa _COMPLETE_WITH_PROMPT com erro de serviço remoto: 500 “«internal error»

Problema ao processar a solicitação no lado do servidor. Talvez o arquivo esteja corrompido ou truncado.