Snowflakeにおけるモデル推論

Snowflakeは、2つの異なるコンピューティングエンジンを使用します。

  • ウェアハウス(SQLエンジン)

  • Snowpark Container Services

Snowflakeモデルレジストリは、両方のエンジンに統一インターフェースを提供します。ユースケースに最適な環境は、レイテンシ、データ型、スケーリングの要件によって異なります。Snowflakeは、推論ワークフローに以下のアプローチを提供します。

リアルタイム推論(REST API): 低レイテンシでリアルタイムのユースケース用に設計されています。HTTPエンドポイントを介してリクエストが容易化され、外部アプリケーションを強化するのに最適です。

Snowflakeネイティブバッチ推論(SQL): Snowflake SQLエコシステムとの統合を必要とするバッチワークロード用に設計されています。たとえば、バッチワークロードは動的テーブル、Snowpark、DBT、およびユーザータスクと統合できます。SQL関数を使用して、データを移動したり、外部インフラストラクチャを管理したりすることなく、インテリジェンスを既存のデータパイプラインに直接埋め込むことができます。

ジョブベースのバッチ推論: このアプローチは、推論がスタンドアロンのコンピューティングステージとして扱われる、高スループットの分散処理のために設計されています。SQLエンジンから推論を切り離すことにより、料金とパフォーマンスの両方を最適化することができます。バッチ推論を使用して、大規模なデータセットを処理したり、複雑な計算要件をナビゲートしたりすることができます。これは、Snowflakeステージから直接、画像、ビデオ、オーディオなどのファイルを処理するのに最適です。

選択するタイミング

以下の表を使用して、特定のワークロード要件を正しいコンピューティングパターンに合わせてください。

機能

リアルタイム推論(SPCS)

ネイティブバッチ推論(SQL)

ジョブベースバッチ(SPCS)

プライマリ目標

インタラクティブな応答:ライブユーザーのための低レイテンシ、1秒未満のフィードバック。

インラインインテリジェンス:SQLデータパイプラインにモデルをシームレスに埋め込む。

スタンドアロン処理:非構造化データの大規模で非構造化コンピューティング。

最適な用途

• Web/Mobile app backends.
• Real-time user interactions.
• High-concurrency request spikes.
• Upstream pipelines (Dynamic Tables, Snowpark).
• SQL-first users (Analysts/DEs).
• Tools like dbt.
• Processing files (Images, Video, Audio).
• Large-scale historical backfills.
• Multi-modal data processing.

データソース

HTTPペイロード経由で渡される小さな入力。

Snowflakeテーブルにあるデータ。

Snowflakeステージにあるデータ(ファイル)。

スケーラビリティ

リクエスト量を満たすための水平自動スケーリング。

仮想ウェアハウスを介したサーバーレススケーリング。

バルクデータの高スループットの分散処理。

主な利点

ゼロ操作の複雑さ:Snowflakeは、コンテナのオーケストレーション、イングレス、セキュリティパッチを自動的に処理します。

ゼロインフラストラクチャ:モデルをネイティブSQL関数のように扱う。

コスト最適化:個別の大量コンピューティングステージの大幅な効率。