2025年4月24日 --- マルチノードクラスタ上で動作するML向けのContainer Runtime --- プレビュー¶
マルチノードクラスタ上で動作するML向けのContainer Runtimeをプレビューとしてリリースしました。Snowflake Notebooksの複数コンピュートノードにまたがるMLワークロードをスケールできる新機能になります。
マルチノードクラスタ上で動作するML向けのContainer Runtimeでは次のことが可能になります。
MLワークロードのスケール: MLタスクのリソースニーズに合わせて、コンピューティングプール内のノード数を動的に調整します。
分散トレーニングの実行: PyTorch、LightGBM、XGBoostのような分散フレームワークを使用して、より大きなデータセットでMLモデルをトレーニングします。
クラスタリソースの管理: リソースを大量に必要とするタスクでは簡単にスケールアップし、多くのリソースを必要としなくなるとスケールダウンします。
スケーリング操作の制御: ワークフローのニーズに合わせて、非同期スケーリング、タイムアウトしきい値、最小ノード要件を設定します。
マルチノードクラスタで動作するML向けContainer Runtimeの主な利点は以下のとおりです。
パフォーマンスの向上: 並列化により、より大きなデータセットを処理し、複雑なモデルのトレーニングを高速化します。
リソース効率: 新たなコンピューティングプールをプロビジョニングすることなく、ワークロード要件に応じてリソースをスケールアップまたはダウンさせます。
柔軟性: 開発ワークフローに合わせて、同期または非同期のスケーリング操作をサポートします。
シンプルさ: シンプルなAPIsで最小限の構成によるクラスタのスケーリングやアクティブなノードの監視を行います。
マルチノードクラスタで動作するML向けContainer Runtimeを使い始めるには、 マルチノードクラスタ上で動作する ML 向けのContainer Runtime をご覧ください。