Cortex AI Functions: Images¶

Com o Cortex AI Images, você pode realizar o seguinte:

Comparar imagens
Gerar legendas para imagens
Classificar imagens
Extrair entidades de imagens
Gerar vetores de incorporação para uso em sistemas de recuperação
Responder a perguntas usando os dados em gráficos e tabelas

Você pode realizar essas tarefas com as seguintes funções:

Requisitos de entrada¶

A multimodal COMPLETE pode processar imagens com as seguintes características:


Requisito	Valor
Extensões de nome de arquivo	`.jpg`, `.jpeg`, `.png`, `.webp`, `.gif`
Criptografia de estágio	Criptografia do lado do servidor
Tipo de dados	FILE

Nota

Atualmente, o processamento de arquivos de estágios é incompatível com políticas de rede personalizadas.

Análise de imagens¶

A função COMPLETE processa uma única imagem ou várias imagens (por exemplo, extraindo as diferenças nas entidades de várias imagens) armazenadas em uma área de preparação. Consulte Criar área de preparação para arquivos de mídia para obter informações sobre como criar uma área de preparação adequada.

A chamada de função especifica o seguinte:

O modelo multimodal a ser usado
Um prompt
O caminho do estágio do(s) arquivo(s) de imagem por meio de um objeto FILE

Exemplo de perguntas e respostas de visão¶

The following example uses Anthropic’s Claude Sonnet 4.6 model to summarize a pie chart science-employment-slide.jpeg stored in the @myimages stage.

Gráfico de pizza exibindo a distribuição das ocupações em que a matemática é considerada “extremamente importante” em 2023 — A distribuição das ocupações em que a matemática é considerada “extremamente importante” em 2023¶

SELECT AI_COMPLETE('claude-4-6-sonnet',
    'Summarize the insights from this pie chart in 100 words',
    TO_FILE('@myimages', 'science-employment-slide.jpeg'));

Resposta:

This pie chart shows the distribution of occupations where mathematics is considered "extremely important" in 2023.
Data scientists dominate with nearly half (48.7%) of all such positions, followed by operations research analysts
at 29.6%. The remaining positions are distributed among statisticians (7.8%), actuaries (7.2%), physicists (5.1%),
mathematicians (0.6%), and other mathematical science occupations (1.1%). This distribution highlights the growing
importance of data science in mathematics-intensive careers, while traditional mathematics roles represent a smaller
share of the workforce.

Exemplo de comparação de imagens¶

Nota

Atualmente, apenas os modelos Anthropic (claude) e Meta (llama) podem fazer referência a várias imagens em um único prompt. O suporte a várias imagens para outros modelos poderá estar disponível em um lançamento futuro.

Use the PROMPT helper function to process multiple images in a single COMPLETE call. The following example uses Anthropic’s Claude Sonnet 4.6 model to compare two different ad creatives from the @myimages stage.

Imagens de dois anúncios de carros elétricos — Imagem de dois anúncios de carros elétricos¶

SELECT AI_COMPLETE('claude-4-6-sonnet',
    PROMPT('Compare this image {0} to this image {1} and describe the ideal audience for each in two concise bullets no longer than 10 words',
    TO_FILE('@myimages', 'adcreative_1.png'),
    TO_FILE('@myimages', 'adcreative_2.png')
));

Resposta:

First image ("Discover a New Energy"):
• Conservative luxury SUV buyers seeking a subtle transition to electrification

Second image ("Electrify Your Drive"):
• Young, tech-savvy urbanites attracted to bold, progressive automotive design

Exemplo de classificação de imagens¶

O exemplo a seguir usa AI_CLASSIFY para classificar uma imagem de um aplicativo de imóveis.

Imagem de uma sala de estar decorada para imóvel

O SQL a seguir usa a função AI_CLASSIFY para classificar a imagem como uma foto de sala de estar, cozinha, sala de banho, jardim ou quarto principal.

SELECT AI_CLASSIFY(TO_FILE('@my_images', 'REAL_ESTATE_STAGING.PNG'),
    ['Living Area', 'Kitchen', 'Bath', 'Garden', 'Master Bedroom']) AS room_classification;

Resposta:

{ "labels": [ "Living Area" ] }

O SQL abaixo categoriza os objetos encontrados na imagem acima como sofá, janela, mesa, televisão ou obra de arte.

SELECT AI_CLASSIFY (TO_FILE ('@my_images', 'REAL_ESTATE_STAGING.PNG'),
    ['Couch', 'Window', 'Table', 'Television', 'Art'],  {'output_mode': 'multi'} )
    AS living_room_objects;

Resposta:

{
  "labels": [
    "Art",
    "Couch",
    "Table",
    "Window"
  ]
}

Pesquisa de imagens¶

Você pode usar AI_EMBED para encontrar imagens semelhantes a uma imagem de destino. Primeiro, use a função AI_EMBED para gerar um vetor de incorporação para a imagem de destino, mapeando suas características visuais em um espaço vetorial abstrato, uma representação numérica das características da imagem. Depois disso, você pode usar funções de similaridade vetorial para comparar esse vetor de incorporação com os de outras imagens, o que produz uma pontuação de similaridade baseada nas características visuais comuns ou semelhantes. Essa pontuação pode ser usada para classificar, pontuar ou filtrar imagens com base na similaridade com a imagem de destino.

Por exemplo, para cada uma das imagens acima, o SQL a seguir gera um vetor de incorporação e os compara usando a similaridade por cosseno. O resultado, cerca de 0,5, indica que as imagens são de alguma forma semelhantes. Ambas as fotos foram tiradas em um cenário urbano e mostram uma multidão de fundo, mas os elementos principais são diferentes.

WITH ai_image_embeddings as (
    SELECT
        AI_EMBED('voyage-multimodal-3',
            TO_FILE ('@my_images', 'CITY_WALKING1.PNG')) as image1_embeddings,
        AI_EMBED('voyage-multimodal-3',
            TO_FILE ('@my_images', 'CITY_WALKING2.PNG')) as image2_embeddings
)
SELECT VECTOR_COSINE_SIMILARITY(image1_embeddings,image2_embeddings) as similarity FROM ai_image_embeddings;

0.5359029029

Para encontrar imagens semelhantes a uma imagem de destino, você pode usar a AI_SIMILARITY. O exemplo a seguir calcula uma pontuação de similaridade para possivelmente milhares de imagens e retorna os criativos de anúncio mais semelhantes ao anúncio da motocicleta abaixo.

SELECT
    TO_FILE('@ad_images', relative_path) as ALL_ADS
    FROM DIRECTORY(@ad_images)
WHERE AI_SIMILARITY(TO_FILE('@ad_images', 'image_226.jpg'), ALL_ADS) >= 0.5;

A consulta retorna imagens de uma tabela multimodal em que a pontuação de similaridade é maior que 0,50. Uma das imagens identificadas (image_226.jpg) é a que usamos como referência.

+-----------------------------------------------------------+
| {} ALL_ADS                                                |
+-----------------------------------------------------------+
|  { "CONTENT_TYPE": "image/jpeg",                          |
|    "ETAG": "686897696a7c876b7e",                          |
|    "LAST_MODIFIED": "Wed, 26 Mar 2025 18:11:45 GMT",      |
|    "RELATIVE_PATH": "image_226.jpg",                      |
|    "SIZE": 39086,                                         |
|    "STAGE": "@ad_images" }                                |
+-----------------------------------------------------------+
|  { "CONTENT_TYPE": "image/jpeg",                          |
|    "ETAG": "e7b678c7a696798686",                          |
|    "LAST_MODIFIED": "Wed, 26 Mar 2025 18:11:57 GMT",      |
|    "RELATIVE_PATH": "image_441.jpg",                      |
|    "SIZE": 12650,                                         |
|    "STAGE": "@ad_images" },                               |
+-----------------------------------------------------------+

Limitações do modelo¶

All models available to Snowflake Cortex have limitations on the total number of input and output tokens, known as the model’s context window. The context window size is measured in tokens. Inputs exceeding the context window limit result in an error. Output which would exceed the context window limit is truncated.

Para modelos de texto, os tokens geralmente representam aproximadamente quatro caracteres de texto, portanto, a contagem de palavras correspondente a um limite é menor que a contagem de tokens.

Para modelos de imagem, a contagem de tokens por imagem depende da arquitetura do modelo de visão. Os tokens em um prompt (por exemplo, “que animal é esse?”) também contribuem para a janela de contexto do modelo.


Modelo	Janela de contexto (tokens)	Tipos de arquivo	Tamanho do arquivo	Imagens por prompt
`openai-gpt-4.1`	1,047,576	.jpg, .jpeg, .png, .webp, .gif	10MB	5
`claude-4-opus`	200,000	.jpg, .jpeg, .png, .webp, .gif	3,75 MB [L1]	20
`claude-4-sonnet`	200,000	.jpg, .jpeg, .png, .webp, .gif	3,75 MB [L1]	20
`claude-3-7-sonnet`	200,000	.jpg, .jpeg, .png, .webp, .gif	3,75 MB [L1]	20
`claude-4-6-sonnet`	200,000	.jpg, .jpeg, .png, .webp, .gif	3,75 MB [L1]	20
`llama4-maverick`	128,000	.jpg, .jpeg, .png, .webp, .gif, .bmp	10 MB	10
`llama-4-scout`	128,000	.jpg, .jpeg, .png, .webp, .gif, .bmp	10 MB	10
`pixtral-large`	128,000	.jpg, .jpeg, .png, .webp, .gif, .bmp	10 MB	1
`voyage-multimodal-3`	32,768	.jpg, .png, .pg, .gif, .bmp	10 MB	1

[L1] (1,2,3,4)

As imagens devem ser menores que 8.000 x 8.000 pixels. Os limites são aplicados a cada imagem individual.

Considerações sobre custo¶

O faturamento é escalonado de acordo com o número de tokens processados. O número de tokens por imagem depende da arquitetura do modelo de visão.

A fórmula dos modelos antrópicos (claude) é aproximadamente: tokens = (largura em pixels × altura em pixels)/750.
Os modelos Mistral (pixtral) dividem cada imagem em lotes de 16 × 16 pixels e convertem cada lote em um token. O número total de tokens é equivalente a aproximadamente (largura em pixels/16) * (altura em pixels/16).
Os modelos Meta (llama) tentam colocar a imagem em blocos quadrados. Dependendo da proporção e do tamanho da imagem, o número de blocos pode ser de até 16, cada uma representada por cerca de 153 tokens.
Open AI models rescale the image and tile it with square patches. For openai-gpt-4.1, depending on the image ratio and size, the number of tokens can be 211 (images up to 512x512px), 352 (non-square images with longer side length 1024px), or from 630 tokens (square images at least 1024x1024px) to 913 tokens (non-square images with shorter side length 1024px).
O voyage-multimodal-3 opera em uma matriz de quadrados de imagem com tamanho aproximado de 14 x 14 px. A imagem é redimensionada de maneira que fique coberta por uma grade, que tem um mínimo de 64 e um máximo de 2.500 quadrados. Dois tokens de imagem extras são adicionados, de modo que a entrada varia de 66 a 2.502 tokens, dependendo do tamanho e da proporção da imagem.

Nota

No momento, a função COUNT_TOKENS não é compatível com entradas de imagem.

Escolha de um modelo de visão¶

A função COMPLETE é compatível com vários modelos de capacidade, latência e custo variados. Para obter o melhor desempenho por crédito, escolha um modelo que se alinhe ao tamanho do conteúdo e à complexidade da tarefa.


Modelo	MMMU	Mathvista	ChartQA	DocVQA	VQAv2
GPT-4o	68,6	64,6	85,1	88,9	77,8
`openai-gpt-4.1`	75	72
`llama-4-maverick`	73,4	73,7	90	94,4
`llama-4-scout`	69,4	70,7	88,8	94,4
`pixtral-large`	64,0	69,4	88,1	85,7	67

Os benchmarks são:

MMMU: avalia modelos multimodais em tarefas multidisciplinares que exigem raciocínio de nível universitário.
Mathvista: referência de raciocínio matemático em um contexto visual.
ChartQA: avalia questões de raciocínio complexas sobre gráficos.
DocVQA e VQv2: benchmarks para responder a perguntas visuais em documentos.

Para incorporações multimodais, apenas o modelo voyage-multimodal-3 está disponível no momento. O voyage-multimodal-3 é um modelo de incorporação multimodal de última geração capaz de incorporar texto e imagens. Ele pode extrair as principais características visuais de fontes, como capturas de tela de PDFs, slides, tabelas e figuras, reduzindo a necessidade de fluxos de trabalho de análise de documentos complexos. De acordo com os parâmetros de comparação internos da Voyage AI, o modelo voyage-multimodal-3 supera os da concorrência, como OpenAI CLIP Large, Amazon Titan Multimodal e Cohere Multimodal v3.

Disponibilidade regional¶

O suporte a esse recurso está disponível nativamente para contas nas seguintes regiões do Snowflake:


Modelo	AWS US West 2 (Oregon)	AWS US East 1 (N. Virginia)	AWS Europe Central 1 (Frankfurt)
`claude-3-7-sonnet` [A1]
`claude-4-sonnet` [A1]
`claude-4-opus` [A1]
`pixtral-large`	✔	✔	✔
`llama4-maverick`	✔
`llama4-scout`	✔
`voyage-multimodal-3` [A1]

[A1] (1,2,3,4)

O modelo está disponível somente por meio de inferência entre regiões.

A AI_COMPLETE está disponível em regiões adicionais por meio da inferência entre regiões.

Condições de erro¶


Mensagem	Explicação
Falha na solicitação da função externa SYSTEM$COMPLETE_WITH_IMAGE_INTERNAL com erro de serviço remoto: 400 “invalid image path”	A extensão do arquivo ou o próprio arquivo não é aceito pelo modelo. A mensagem também pode significar que o caminho do arquivo está incorreto, ou seja, o arquivo não existe no local especificado. Os nomes de arquivos diferenciam maiúsculas de minúsculas.
Erro no objeto seguro	Pode indicar que o estágio não existe. Verifique o nome do estágio e certifique-se de que o estágio exista e esteja acessível. Não se esqueça de usar o sinal de arroba (@) no início do caminho do estágio, como `@myimages`.
Falha na solicitação da função externa _COMPLETE_WITH_PROMPT com erro de serviço remoto: 400 “invalid request parameters: unsupported image format: image/**”	Unsupported image format given to `claude-4-6-sonnet`, i.e. other than .jpeg, .png, .webp, or .gif.
Falha na solicitação da função externa _COMPLETE_WITH_PROMPT com erro de serviço remoto: 400 “invalid request parameters: Image data exceeds the limit of 5.00 MB”	The provided image given to `claude-4-6-sonnet` exceeds 5 MB.

Jurídico¶

A classificação dos dados de entradas e saídas é definido na tabela a seguir.


Classificação de dados de entrada	Classificação de dados de saída	Designação
Usage Data	Customer Data	As funções disponíveis ao público em geral são recursos de AI cobertos. As funções em versão preliminar são recursos de AI em versão preliminar. [1]

Para obter informações adicionais, consulte AI e ML Snowflake.