20. August 2025: Verteilte Verarbeitung in Snowflake ML: Many Model Training und Distributed Partition Function¶
Snowflake-ML unterstützt jetzt verteilte Verarbeitungsfunktionen zum Trainieren mehrerer Modelle und zum Verarbeiten von Daten über Partitionen hinweg.
Sie können Many Model Training (MMT) verwenden, um mehrere Modelle des maschinellen Lernens effizient über Datenpartitionen hinweg zu trainieren. MMT Partitioniert Ihren Snowpark-DataFrame durch eine Spalte, die Sie angeben und auf jeder Partition parallel separate Modelle trainieren.
Sie können die Distributed Partition Function (DPF) verwenden, um Daten parallel über einen oder mehrere Knoten in einem Computepool zu verarbeiten. DPF partitioniert Ihren Snowpark-DataFrame nach einer von Ihnen angegebenen Spalte und führt Ihre Python-Funktion parallel auf jeder Partition aus.
Beide Features helfen Ihnen, die Komplexität der Infrastruktur zu bewältigen und automatisch zu skalieren.
Weitere Informationen dazu finden Sie unter Trainieren von Modellen über Datenpartitionen hinweg und Verarbeiten von Daten mit benutzerdefinierter Logik über Partitionen hinweg.