Connecteur Snowflake pour Spark¶

Le connecteur Snowflake pour Spark (« connecteur Spark ») intègre Snowflake dans l’écosystème Spark, permettant à Apache Spark de lire et d’écrire des données sur Snowflake. Du point de vue de Spark, Snowflake ressemble aux autres sources de données Spark (PostgreSQL, HDFS, S3, etc.).

Note

Comme alternative à l’utilisation de Spark, envisagez d’écrire votre code pour utiliser API Snowpark à la place. Snowpark vous permet d’effectuer tout votre travail dans Snowflake (plutôt que dans un cluster de calcul Spark séparé). Snowpark prend également en charge le pushdown de toutes les opérations, y compris les UDFs Snowflake.

Snowflake prend en charge plusieurs versions du connecteur pour Spark :

Spark Connector 2.x : Spark versions 3.2, 3.3 et 3.4.

Il existe une version distincte du connecteur Snowflake pour chaque version de Spark. Utilisez la bonne version du connecteur pour votre version de Spark.

Spark Connector 3.x : Spark versions 3.2, 3.3, 3.4 et 3.5.

Chaque paquet de Spark Connector 3 prend en charge la plupart des versions de Spark.

Le connecteur fonctionne en tant que plug-in Spark et est fourni sous forme de pack Spark (spark-snowflake).

Chapitres suivants :