2025年4月24日 --- マルチノードクラスタ上で動作するML向けのContainer Runtime --- プレビュー

マルチノードクラスタ上で動作するML向けのContainer Runtimeをプレビューとしてリリースしました。Snowflake Notebooksの複数コンピュートノードにまたがるMLワークロードをスケールできる新機能になります。

マルチノードクラスタ上で動作するML向けのContainer Runtimeでは次のことが可能になります。

  • MLワークロードのスケール: MLタスクのリソースニーズに合わせて、コンピューティングプール内のノード数を動的に調整します。

  • 分散トレーニングの実行: PyTorch、LightGBM、XGBoostのような分散フレームワークを使用して、より大きなデータセットでMLモデルをトレーニングします。

  • クラスタリソースの管理: リソースを大量に必要とするタスクでは簡単にスケールアップし、多くのリソースを必要としなくなるとスケールダウンします。

  • スケーリング操作の制御: ワークフローのニーズに合わせて、非同期スケーリング、タイムアウトしきい値、最小ノード要件を設定します。

マルチノードクラスタで動作するML向けContainer Runtimeの主な利点は以下のとおりです。

  • パフォーマンスの向上: 並列化により、より大きなデータセットを処理し、複雑なモデルのトレーニングを高速化します。

  • リソース効率: 新たなコンピューティングプールをプロビジョニングすることなく、ワークロード要件に応じてリソースをスケールアップまたはダウンさせます。

  • 柔軟性: 開発ワークフローに合わせて、同期または非同期のスケーリング操作をサポートします。

  • シンプルさ: シンプルなAPIsで最小限の構成によるクラスタのスケーリングやアクティブなノードの監視を行います。

マルチノードクラスタで動作するML向けContainer Runtimeを使い始めるには、 マルチノードクラスタ上で動作する ML 向けのContainer Runtime をご覧ください。