24. April 2025: Container Runtime für ML auf Cluster mit mehreren Knoten (Vorschau)¶

Snowflake kündigt die Vorschau der Container Runtime für ML auf Multi-Knoten-Clustern an, eine neue Funktion, mit der Sie Ihre ML-Workloads über mehrere Serverknoten in Snowflake-Notebooks skalieren können.

Container Runtime für ML auf Multi-Knoten-Clustern ermöglicht Ihnen Folgendes:

Skalieren von ML-Workloads: Passen Sie die Anzahl der Knoten in Ihrem Computepool dynamisch an den Ressourcenbedarf Ihrer ML-Aufgaben an.
Durchführen von verteiltem Training: Trainieren Sie ML-Modelle auf größeren Datensätzen mit verteilten Frameworks wie PyTorch, LightGBM und XGBoost.
Verwalten von Clustering-Ressourcen: Skalieren Sie bei ressourcenintensiven Aufgaben einfach nach oben und verkleinern Sie sie, wenn weniger Ressourcen benötigt werden.
Steuerung von Skalierungsoperationen: Konfigurieren Sie die asynchrone Skalierung, die Timeout-Schwellenwerte und die Mindestanforderungen an die Knoten, um die Anforderungen Ihres Workflows zu erfüllen.

Zu den wichtigsten Vorteilen von Container Runtime für ML auf Multi-Knoten-Clustern gehören:

Verbesserte Leistung: Verarbeiten Sie größere Datensätze und beschleunigen Sie das Training von komplexen Modellen durch Parallelisierung.
Ressourceneffizienz: Skalieren Sie Ressourcen je nach Workload-Anforderungen nach oben oder unten, ohne neue Computepools bereitstellen zu müssen.
Flexibilität: Unterstützung für synchrone oder asynchrone Skalierungsoperationen zur Anpassung an Ihren Entwicklungsworkflow.
Einfachheit: Unkomplizierte APIs für die Skalierung von Clustern und die Überwachung aktiver Knoten mit minimaler Konfiguration.

Informationen zu den ersten Schritten mit Container Runtime für ML auf Multi-Knoten-Clustern finden Sie unter Container Runtime für ML auf Mehrknoten-Clustern.