24 avril 2025 — Container Runtime for ML on multi-node clusters — Aperçu

Snowflake annonce l’aperçu de Container Runtime for ML on multi-node clusters, une nouvelle fonctionnalité qui vous permet de mettre à l’échelle vos charges de travail ML sur plusieurs nœuds de calcul dans Snowflake Notebooks.

Container Runtime for ML on multi-node clusters vous permet de :

  • Faire évoluer les charges de travail ML : Ajustez dynamiquement le nombre de nœuds de calcul de votre pool de calcul en fonction des besoins en ressources de vos tâches ML.

  • Exécuter l’entraînement distribué : Entraînez les modèles ML sur des ensembles de données plus importants en utilisant des cadres distribués comme PyTorch, LightGBM et XGBoost.

  • Gérer les ressources de clustering : Augmentez facilement les ressources pour les tâches à forte intensité de ressources et réduisez les ressources lorsque vous en avez besoin.

  • Contrôler les opérations de mise à l’échelle : Configurez la mise à l’échelle asynchrone, les seuils d’expiration et les exigences minimales en matière de nœuds pour répondre aux besoins de votre workflow.

Les principaux avantages de Container Runtime for ML on multi-node clusters sont les suivants :

  • Amélioration des performances : Traitez des ensembles de données plus importants et accélérez l’entraînement de modèles complexes grâce à la parallélisation.

  • Efficacité des ressources : Faites évoluer les ressources à la hausse ou à la baisse en fonction des exigences de la charge de travail sans provisionner de nouveaux pools de calcul.

  • Flexibilité : Prise en charge des opérations de mise à l’échelle synchrones ou asynchrones pour s’adapter à votre flux de développement.

  • Simplicité : APIs simples et directes pour mettre à l’échelle les clusters et surveiller les nœuds actifs avec une configuration minimale.

Pour commencer à utiliser Container Runtime pour ML on multi-node clusters, consultez Container Runtime pour ML on multi-node clusters.