Inferência de modelo no Snowflake

O Snowflake usa dois mecanismos de computação distintos:

  • O warehouse (mecanismo SQL)

  • Snowpark Container Services

O Snowflake Model Registry oferece uma interface unificada para ambos os mecanismos. O ambiente ideal para seus casos de uso depende da latência, dos tipo de dados e dos requisitos de dimensionamento. O Snowflake oferece as seguintes abordagens para fluxos de trabalho de inferência:

Inferência em tempo real (API REST): projetada para casos de uso de baixa latência e em tempo real. As solicitações são facilitadas por meio de pontos de extremidade HTTP e são ideais para operar aplicativos externos.

Inferência em lote nativa do Snowflake (SQL): projetada para cargas de trabalho em lote que exigem integração com o ecossistema SQL do Snowflake. Por exemplo, as cargas de trabalho em lote podem ser integradas a tabelas dinâmicas, ao Snowpark, a DBT e tarefas do usuário. Você pode usar uma função SQL para incorporar inteligência diretamente a seus pipelines de dados existentes sem mover os dados nem gerenciar a infraestrutura externa.

Inferência em lote baseada em trabalhos: essa abordagem foi projetada para processamento distribuído de alta taxa de transferência, em que a inferência é tratada como uma área de preparação de computação independente. Ao desacoplar a inferência do mecanismo SQL, você pode otimizar preço e desempenho. Você pode usar a inferência em lote para ajudá-lo a processar conjuntos de dados grandes ou atender a requisitos computacionais complexos. Isso é ideal para processar arquivos, como imagens, vídeos e áudios, diretamente das áreas de preparação do Snowflake.

Quando escolher

Use a tabela a seguir para alinhar seus requisitos específicos de carga de trabalho ao padrão de computação correto.

Recurso

Inferência em tempo real (SPCS)

Inferência em lote nativa (SQL)

Lote baseado em trabalhos (SPCS)

Principal objetivo

Respostas interativas: feedback de baixa latência em subsegundos para usuários ativos

Inteligência em linha: incorporação perfeita de modelos a pipelines de dados SQL

Processamento autônomo: computação desacoplada em grande escala para dados não estruturados

Melhor para…

• Web/Mobile app backends.
• Real-time user interactions.
• High-concurrency request spikes.
• Upstream pipelines (Dynamic Tables, Snowpark).
• SQL-first users (Analysts/DEs).
• Tools like dbt.
• Processing files (Images, Video, Audio).
• Large-scale historical backfills.
• Multi-modal data processing.

Fonte de dados

Pequenas entradas passadas por carga útil HTTP

Dados que residem em tabelas do Snowflake

Dados que residem em áreas de preparação do Snowflake (arquivos)

Escalabilidade

Dimensionamento automático horizontal para atender ao volume de solicitações

Dimensionamento sem servidor via warehouses

Processamento distribuído de alta taxa de transferência para dados em massa

Vantagem principal

Complexidade Zero Ops: o Snowflake processa a orquestração de contêineres, a entrada e a aplicação automática de patches de segurança automaticamente

Infraestrutura zero: considere seu modelo como uma função SQL nativa

Otimização de custo: eficiência significativa para áreas de preparação de computação distintas e de alto volume