Exécuter des charges de travail Spark par lots à partir de Snowpark Submit¶
Vous pouvez exécuter des charges de travail Spark de manière non interactive et asynchrone directement sur l’infrastructure Snowflake tout en utilisant la sémantique Spark qui vous est familière. Avec Snowpark Submit, vous pouvez soumettre des applications Spark prêtes pour la production, telles que des pipelines ETL et des transformations de données planifiées, à l’aide d’une interface CLI simple. De cette manière, vous pouvez maintenir vos workflows de développement Spark existants sans cluster Spark dédié.
Par exemple, vous pouvez empaqueter votre script ETL PySpark, puis utiliser l’interface CLI Snowpark Submit pour exécuter le script en tant que tâche par lots sur un conteneur Snowpark Container Services. Cette méthode vous permet d’automatiser les pipelines de données nocturnes avec Apache Airflow ou avec les outils CI/CD. Votre code Spark s’exécute en mode cluster sur Snowpark Container Services, s’adaptant de manière transparente grâce à la gestion intégrée des dépendances et des ressources.
Pour des exemples de Snowpark Submit en cours d’utilisation, voir Exemples Snowpark Submit.
Snowpark Submit exécute des charges de travail Spark sur Snowflake à l’aide de Snowpark Connect for Spark. Pour plus d’informations sur Snowpark Connect for Spark, voir Exécuter des charges de travail Spark sur Snowflake avec Snowpark Connect for Spark.
Snowpark Submit offre les avantages suivants :
Possibilité de fonctionner en mode cluster sur une infrastructure gérée par Snowflake sans configuration Spark externe
Intégration des workflows, prise en charge de l’automatisation via les pipelines CI/CD, Apache Airflow ou la planification basée sur Cron
Prise en charge de Python, permettant la réutilisation des applications Spark existantes dans plusieurs langages
Gestion des dépendances, avec prise en charge de l’empaquetage des modules Python externes ou des JARs
Note
snowpark-submit prend en charge une grande partie des mêmes fonctionnalités que spark-submit. Cependant, certaines fonctionnalités ont été omises, car elles ne sont pas nécessaires lors de l’exécution de charges de travail Spark sur Snowflake.
Premiers pas avec Snowpark Submit¶
Pour commencer à utiliser Snowpark Submit, procédez comme suit :
Installez Snowpark Submit en suivant les étapes du document suivant : Installer Snowpark Submit.
Passez en revue les Exemples Snowpark Submit.
Découvrez comment utiliser Snowpark Submit avec Référence Snowpark Submit.