Snowflake ML:エンドツーエンドの機械学習

Snowflake MLは、お客様の管理データの上に、単一のプラットフォームでエンドツーエンドの機械学習を行うための統合機能セットです。これは、 ML の開発および生産化のための統合環境であり、 CPU および GPU のコンピュート上で、手動でのチューニングや構成なしに、大規模な分散機能エンジニアリング、モデルトレーニング、推論を行うために最適化されています。

Snowflake ML 概要図

Snowflakeのエンドツーエンド ML ワークフローのスケーリングはシームレスです。以下のことができます。

  • データの準備

  • Snowflake Feature Storeを使用した機能の作成と使用

  • Train models with CPUs or GPUs using any open-source package from Snowflake Notebooks on Container Runtime

  • Create experiments to evaluate your trained models against set metrics

  • Operationalize your pipelines using Snowflake ML Jobs

  • Snowflake Model Registryを使用して、スケールの大きな推論のためにモデルをデプロイします。

  • Monitor your production models with ML Observability and Explainability

  • Use ML Lineage to track the source data to features, datasets, and models throughout your ML pipeline

Snowflake ML はまた、柔軟でモジュール化されています。Snowflakeで開発したモデルをSnowflakeの外部にデプロイし、外部でトレーニングしたモデルをSnowflakeに簡単に導入して推論を行うことができます。

データサイエンティストと ML エンジニアのための機能

Container RuntimeのSnowflake Notebooks

Container RuntimeのSnowflake Notebooks は、インフラ管理なしに、Snowflakeで大規模モデルのトレーニングや微調整を行うためのJupyterライクな環境を提供します。PyTorch、 XGBoost、Scikit-learnなどのプリインストールパッケージを使用してトレーニングを開始するか、 HuggingFace や PyPI などのオープンソースリポジトリから任意のパッケージをインストールしてください。Container Runtimeは、Snowflakeのインフラストラクチャ上で動作するように最適化されており、非常に効率的なデータのロード、分散モデルのトレーニング、ハイパーパラメーターのチューニングを提供します。

Snowflake特徴ストア

Snowflake特徴ストア は、データから ML 機能を定義、管理、保存、発見するための統合ソリューションです。Snowflake Feature Storeは、バッチおよびストリーミングデータソースからの自動的な増分リフレッシュをサポートしているため、機能パイプラインを1回定義するだけで、新しいデータで継続的にリフレッシュすることができます。

MLジョブ

Snowflake MLのジョブ を使用して、 ML パイプラインを開発し、自動化します。ML ジョブを使用すると、外部 IDE (VS コード、 PyCharm、 SageMaker Notebooks)からの作業を好むチームが、関数、ファイル、またはモジュールをSnowflakeのコンテナランタイムにディスパッチすることもできます。

Experiments

Use experiments to record the results of your model training, and evaluate a collection of models in an organized way. Experiments help you select the best model for your use case to bring live to production. Training can either be logged in an experiment during model training on Snowflake, or you can upload your own metadata and artifacts from prior training. After concluding your training, view all of the results in Snowsight and pick the right model for your needs.

Snowflake Model RegistryとModel Serving

Snowflakeモデルレジストリ では、Snowflakeや他のプラットフォームでトレーニングされたモデルに関係なく、すべての ML モデルのログと管理を行うことができます。モデルレジストリのモデルを使用して、スケール推論を実行することができます。Modeling Servingを使用すると、推論のためにモデルをSnowpark Container Serviceにデプロイすることができます。

ML 可観測性

ML Observability は、Snowflakeのモデルパフォーマンスメトリックをモニターするツールを提供します。実稼働中のモデルを追跡し、パフォーマンスとドリフトのメトリックをモニターし、パフォーマンスしきい値のアラートをセットできます。さらに、 ML Explainability関数を使用して、Snowflake Model Registryのモデルについて、どこでトレーニングされたかに関係なく、Shapley値を計算します。

ML 系統

ML Lineage は、ソースデータから機能、データセット、モデルまで、 ML アーティファクトのエンドツーエンドの系譜をトレースする機能です。これにより、 ML アセットのライフサイクル全体にわたって、再現性、コンプライアンス、およびデバッグが可能になります。

Snowflake Datasets

Snowflake Datasets は、機械学習モデルによる取り込みに適した、バージョン管理された不変のデータスナップショットを提供します。

ビジネスアナリストのための機能

ビジネスアナリストは、 ML 関数 を使用して、 SQL を使用した組織全体の予測や異常検知などの一般的なシナリオの開発時間を短縮できます。

追加のリソース

Snowflake ML を使い始めるには、以下のリソースをご覧ください。

Snowflakeの担当者にお問い合わせいただくと、現在開発中の他の特徴量に関するドキュメントをいち早く入手できます。