24 avril 2025 — Container Runtime for ML on multi-node clusters — Aperçu¶
Snowflake annonce l’aperçu de Container Runtime for ML on multi-node clusters, une nouvelle fonctionnalité qui vous permet de mettre à l’échelle vos charges de travail ML sur plusieurs nœuds de calcul dans Snowflake Notebooks.
Container Runtime for ML on multi-node clusters vous permet de :
Faire évoluer les charges de travail ML : Ajustez dynamiquement le nombre de nœuds de calcul de votre pool de calcul en fonction des besoins en ressources de vos tâches ML.
Exécuter l’entraînement distribué : Entraînez les modèles ML sur des ensembles de données plus importants en utilisant des cadres distribués comme PyTorch, LightGBM et XGBoost.
Gérer les ressources de clustering : Augmentez facilement les ressources pour les tâches à forte intensité de ressources et réduisez les ressources lorsque vous en avez besoin.
Contrôler les opérations de mise à l’échelle : Configurez la mise à l’échelle asynchrone, les seuils d’expiration et les exigences minimales en matière de nœuds pour répondre aux besoins de votre workflow.
Les principaux avantages de Container Runtime for ML on multi-node clusters sont les suivants :
Amélioration des performances : Traitez des ensembles de données plus importants et accélérez l’entraînement de modèles complexes grâce à la parallélisation.
Efficacité des ressources : Faites évoluer les ressources à la hausse ou à la baisse en fonction des exigences de la charge de travail sans provisionner de nouveaux pools de calcul.
Flexibilité : Prise en charge des opérations de mise à l’échelle synchrones ou asynchrones pour s’adapter à votre flux de développement.
Simplicité : APIs simples et directes pour mettre à l’échelle les clusters et surveiller les nœuds actifs avec une configuration minimale.
Pour commencer à utiliser Container Runtime pour ML on multi-node clusters, consultez Container Runtime pour ML on multi-node clusters.