Ausführen von Spark-Batch-Workloads über Snowpark Submit

Sie können Spark-Workloads auf nicht interaktive, asynchrone Weise direkt in der Infrastruktur von Snowflake ausführen und dabei die vertraute Spark-Semantik verwenden. Durch Snowpark Submit können Sie produktionsbereite Spark-Anwendungen übermitteln – wie z. B. ETL-Pipelines und geplante Datentransformationen. Hierzu wird eine einfache CLI-Schnittstelle verwendet. Auf diese Weise können Sie Ihre bestehenden Spark-Entwicklungsworkflows ohne speziellen Spark-Cluster pflegen.

Sie können zum Beispiel Ihr PySpark-ETL-Skript verpacken und dann mit der Snowpark Submit-CLI das Skript als Batch-Job auf einem Snowpark Container Services-Container ausführen. Mit dieser Methode können Sie nächtliche Datenpipelines mit Apache Airflow oder CI/CD-Tools automatisieren. Ihr Spark-Code wird im Clustermodus auf Snowpark Container Services ausgeführt, nahtlos skaliert mit integriertem Abhängigkeits- und Ressourcenmanagement.

Beispiele für: Snowpark Submit in der Praxis finden Sie unter Snowpark Submit-Beispiele.

Snowpark Submit führt Spark-Workloads auf Snowflake mit Snowpark Connect for Spark aus. Weitere Informationen zu Snowpark Connect for Spark finden Sie unter Spark-Workloads auf Snowflake mit Snowpark Connect for Spark ausführen.

Snowpark Submit bietet die folgenden Vorteile:

  • Möglichkeit zur Ausführung im Clustermodus auf von Snowflake verwalteter Infrastruktur ohne externe Spark-Einrichtung

  • Workflow-Integration, Unterstützung der Automatisierung durch CI/CD-Pipelines, Apache Airflow oder cron-basierte Zeitplanung

  • Unterstützung von Python, wodurch vorhandene Spark-Anwendungen in verschiedenen Sprachen verwendet werden können

  • Abhängigkeitsverwaltung mit Unterstützung für das Packen externer Python-Module oder JARs

Bemerkung

Ein Großteil der Funktionen von snowpark-submit ist identisch mit denen von spark-submit. Einige Funktionen wurden jedoch weggelassen, da sie bei der Ausführung von Spark-Workloads in Snowflake nicht benötigt werden.

Erste Schritte mit Snowpark Submit

Gehen Sie für die ersten Schritte mit Snowpark Submit wie folgt vor:

  1. Installieren Sie Snowpark Submit indem Sie die unter:doc:/developer-guide/snowpark-connect/snowpark-submit-install beschriebenen Schritte ausführen.

  2. Informieren Sie sich über Snowpark Submit-Beispiele.

  3. Machen Sie sich mit der Verwendung von Snowpark Submit mit Snowpark Submit-Referenz vertraut.