Notes de version de Snowpark Connect for Spark pour 2025¶

Snowflake utilise la version sémantique pour les mises à jour Snowpark Connect for Spark.

Pour la documentation, voir Exécuter les charges de travail Apache Spark™ sur Snowflake avec Snowpark Connect for Spark et Exécuter des charges de travail Spark par lots à partir de Snowpark Submit.

Version 1.7.0 (18 décembre 2025)¶

Snowpark Connect for Spark¶

Nouvelles fonctionnalités¶

Ajout de la prise en charge des types intégraux Spark.
Ajout de la prise en charge de Scala 2.13.
Introduction de la prise en charge du débordement des types intégraux derrière la configuration snowpark.connect.handleIntegralOverflow.
Ajout d’une configuration pour utiliser des fichiers JAR personnalisés dans des UDFs.
Prise en charge des UDFs Scala si UDFPacket ne dispose pas de métadonnées de types d’entrée.
Autorisation des classes de cas comme types d’entrée et de sortie dans la fonction reduce.

Corrections de bogues¶

Correction de la gestion des types logiques Parquet (TIMESTAMP, DATE, DECIMAL). Auparavant, les fichiers Parquet étaient lus en utilisant uniquement des types physiques (comme LongType pour les horodatages). Les types logiques peuvent maintenant être interprétés en renvoyant des types appropriés comme TimestampType, DateType et DecimalType. Vous pouvez activer cette fonctionnalité en définissant la configuration Spark snowpark.connect.parquet.useLogicalType sur true.
Utilisation du schéma de sortie lors de la conversion d’une Row Spark en Variant.
Gestion de JAVA_HOME vide.
Correction de la fonction from_json pour MapType.
Prise en charge de la configuration spark.sql.parquet.outputTimestampType pour le fuseau horaire NTZ.

Améliorations¶

Aucun.

Snowpark Submit¶

Nouvelles fonctionnalités¶

Ajout de la prise en charge de Scala 2.13.
Ajout de la prise en charge de l’argument --files.

Corrections de bogues¶

Ajout de la prise en charge de --jars pour la charge de travail pyspark.
Correction d’un bogue pour Snowpark Submit l’authentification JWT .

Version 1.6.0 (12 décembre 2025)¶

Snowpark Connect for Spark¶

Nouvelles fonctionnalités¶

Prise en charge de tout type de sortie ou d’entrée dans les fonctions map et flatmap Scala.
Prise en charge de joinWith.
Prise en charge de tout type de retour dans les UDFs Scala.
Prise en charge de registerJavaFunction.

Corrections de bogues¶

Correction d’un problème d’inférence de schéma JSON pour les lectures JSON à partir de Scala.
Modification des types de renvoi des fonctions renvoyant des types intégraux incorrects.
Correction d’un bogue de mise à jour des champs avec le type struct.
Correction du décodage d’entrée illimité.
Correction de la fonction struct lorsque l’argument est unresolved_star.
Correction du nom de la colonne pour les UDFs Scala lorsque le proto ne contient aucun nom de fonction.
Ajout de la prise en charge pour PATTERN au format Parquet.
Gestion des modes d’écriture error et errorIfExists.

Améliorations¶

Aucun.

Version 1.5.0 (04 décembre 2025)¶

Snowpark Connect for Spark¶

Nouvelles fonctionnalités¶

Mise à niveau de snowflake-connector-python vers <4.2.0.
Ajout de la prise en charge de base de la carte à une seule colonne et des opérations flatMap sur des ensembles de données Scala.
Prise en charge de l’écriture Iceberg TargetFileSize et PartitionBy.

Corrections de bogues¶

Synchronisation de l’initialisation du serveur SAS.
Utilisez snowpark-connect-deps-1==3.56.3.
Correction de saveAsTable avec les colonnes input_filename.
Suppression de la lecture dupliquée du cache des UDFs Scala.
Augmentation de la limite de récursivité.
Correction de format_number.
Correction du schéma d’inférence lorsque la requête est fournie en lecture JDBC.
Uniquement verrouiller l’opération de dict dans cache.py pour améliorer les performances.
Correction des tests de données groupées.
Lancer des erreurs plus détaillées sur la table et les opérations de lecture/écriture.

Améliorations¶

Aucun.

Version 1.4.0 (25 novembre 2025)¶

Snowpark Connect for Spark¶

Nouvelles fonctionnalités¶

Introduction à la fonction de réduction pour Scala.

Améliorations¶

Aucun.

Corrections de bogues¶

Correction de l’insertion incorrecte dans le tableau pour les éléments pouvant être nuls.
Génération d’une erreur correcte pour les arguments non numériques dans la covariance.

Version 1.3.0 (19 novembre 2025)¶

Snowpark Connect for Spark¶

Nouvelles fonctionnalités¶

Prise en charge de filter sur un Dataset simple (une seule colonne).
Prise en charge de l’analyse des URL du programme Azure et des noms de fichiers contenant des caractères spéciaux.

Corrections de bogues¶

Correction de l’erreur « Le dataframe n’a pas d’attribut dataframe » dans l’API de catalogue Scala.
Correction des alias dans la sous-requête, le document ne fonctionnant pas dans les sous-requêtes.
Correction de la résolution plan_id après les jointures.
Correction de meta.yaml pour les versions multi-py.
Activation de use_vectorized_scanner car le type de carte du fichier Parquet a généré une erreur.
L’option inferSchema de lecture CSV spécifie le type de données.
Correction du traitement de la fonction substr pour les longueurs négatives.
Utilisation de formats de fichiers en cache dans read_parquet.
Amélioration des performances des relations locales.
Génération de summary _common_metadata pour les fichiers Parquet.
Suppression des setSchema, setRole, etc. répétitifs pour le pushdown Snowflake.

Améliorations¶

Aucun.

Version 1.2.0 (17 novembre 2025)¶

Snowpark Connect for Spark¶

Nouvelles fonctionnalités¶

Assouplissement des exigences de version pour grpio et aiobotocore.

Améliorations¶

Spécification de la version des dépendances dans meta.yaml.
Création d’un paquet Conda compilé et spécifique à l’architecture.
Garantie que tous les CloudPickleSerializer.loads ne se font pas dans TCM.
Ajout des tests SQL OSS qui commencent par la clause WITH.
Pas de chargement de fichiers JAR Spark lors de l’exécution du serveur pour pyt.
Mise à jour du nombre de requêtes internes.

Corrections de bogues¶

Correction des tests pour tcm.
Correction de la divergence des noms de colonnes CSV provenant de Spark.
Utilisation du cache de type pour les cadres vides.
Résolution des problèmes généraux liés au gestionnaire Windows OSS.

Snowpark Submit¶

Améliorations¶

Générer des noms de charge de travail uniques.

Corrections de bogues¶

Correction de la lecture des fichiers en zone de préparation.

Version 1.0.1 (3 novembre 2025)¶

Note

Avec la sortie de cette version, la version 0.24 et les versions précédentes sont obsolètes.

Snowpark Connect for Spark¶

Nouvelles fonctionnalités¶

Ajout d’un paramètre pour les stratégies de création de vues.
Prise en charge de la chaîne <-> pour l’intervalle année-mois.
Prise en charge de plusieurs colonnes pivot et alias pour les valeurs pivot dans Spark SQL.
Intégration des intervalles et des traces OpenTelemetry.

Améliorations¶

Aucun.

Corrections de bogues¶

Ajout d’une barre oblique de fin pour la commande de suppression.
Problème GROUP BY non valide avec la fonction d’agrégation et les fonctions nilaires.
Le notebook dépasse la taille maximale de message gRPC.
Correction de la création de vues temporaires avec des noms conflictuels.
array_size avec un argument null.
Correction de l’accès aux tableaux $.0 JSON dans la fonction get_json_object.
Correction des auto-jointures ANTI et SEMI LEFT.
Gestion de différents types dans la plage de fonctions SQL.
Correction de la description des vues temporaires.

Version 1.0.0 (28 octobre 2025)¶

Snowpark Connect for Spark¶

Nouvelles fonctionnalités¶

Ajout de rowToInferSchema pour la lecture CSV.
Prise en charge de INSERT INTO avec la commande SQL CTE.
Modifications des E/S pour ajouter la génération de fichiers _SUCCESS et le filtrage des fichiers de métadonnées.
update(submit) : Prise en charge de l’installation de Snowpark Connect for Spark dans le conteneur client Snowpark Submit.

Améliorations¶

Aucun.

Corrections de bogues¶

Correction de la mise à jour du chemin _SUCCESS.
Renvoi d’une erreur en cas d’échec de la mise à jour lors de la suppression.
Fonction de séquence prenant en charge les entrées de types intégrés.
Correction des types dans CreateTempViewUsing vide.
Correction du repartitionnement des fichiers Parquet en écriture.
Résolution correcte des alias dans la clause ORDER BY.
Suppression du paramètre de session temporaire de la portée.
Correction de plusieurs auto-jointures avec condition de jointure.
Correction de la résolution des noms de colonnes dans le pivot.
Analyseur SQL tenant compte du fuseau horaire de la session.
Coercition du type intervalle avec d’autres types.
Correction de problèmes liés aux CTEs imbriquées.
Amélioration de la résolution des noms qualifiés dans Spark.

Version 0.33.0 (10 octobre 2025)¶

Snowpark Connect for Spark¶

Nouvelles fonctionnalités¶

Ajout d’un script à exécuter sur la sortie de l’action Git pour la fusion des SQLs.
Ajout d’un paramètre --rebuild-whl à l’exécuteur de tests des notebooks.
Ajout de la prise en charge des deux qualificatifs après la jointure.

Améliorations¶

Aucun.

Corrections de bogues¶

Prise en charge du paramètre d’échappement dans les commandes SQL LIKE.
Bug de réécriture dans les partitions.
Validation du nombre de colonnes sur INSERT.
Incompatibilité de pow avec NAN.
JOIN croisée avec condition.
Logique d’attribution des colonnes dans les requêtes imbriquées.
Mise à jour du message d’erreur pour le test d’intervalle.
Coercition du type chaîne dans l’opération d’ensemble UNION et EXCEPT. Coercition de NUMERIC, DATE, DATETIME en STRING.
Résolution correcte des colonnes Snowpark après une auto-JOIN externe complète.
L’expression dans la fonction d’agrégation peut ne présenter aucune amélioration.
Mise à jour : Annulation de la « coercition du type chaîne dans l’opération d’ensemble [SCOS GA BUG] »
L’union DataFrame des colonnes de type décimal est désormais élargie selon les besoins.
Coercition du type chaîne dans l’opération d’ensemble UNION et EXCEPT. Coercition de NUMERIC, DATE, DATETIME en STRING (part1).
Problème d’objet inexistant dans TCM.
Correction de to_binary(x, 'hex') où x comporte un nombre impair de lettres et de chiffres.
Correction des jointures avec des tables vides.
Correction de la clause HAVING pour donner la priorité aux colonnes de regroupement sur les alias agrégés portant le même nom.

Version 0.32.0 (17 octobre 2025)¶

Snowpark Connect for Spark¶

Nouvelles fonctionnalités¶

Prise en charge pour RepairTable
Faites de jdk4py une dépendance facultative de Snowpark Connect for Spark pour simplifier la configuration de l’accueil Java pour les utilisateurs finaux.
Prise en charge d’un plus grand nombre de cas de type intervalle.

Améliorations¶

Aucun.

Corrections de bogues¶

Correction des problèmes Join en refactorisant les qualificatifs
Correction de percentile_cont pour autoriser les expressions de filtrage et d’ordre de tri.
Correction de histogram_numeric UDAF.
Correction de la fonction COUNT lorsqu’elle est appelée avec plusieurs arguments.

Version 0.31.0 (9 octobre 2025)¶

Snowpark Connect for Spark¶

Nouvelles fonctionnalités¶

Ajout de la prise en charge des expressions dans la clause GROUP BY lorsque la clause est explicitement sélectionnée.
Ajout des codes d’erreur aux messages d’erreur pour une meilleur résolution des problèmes.

Améliorations¶

Aucun.

Corrections de bogues¶

Correction du problème de conversion non prise en charge de la fonction de fenêtre.