Validation UTF-8 plus forte pour les fichiers externes

Ce changement de comportement a été mis en œuvre avec la version 7.34. Pour obtenir les informations les plus récentes sur les changements de comportement, consultez le journal des changements de comportement.

Snowflake a renforcé la validation UTF-8 plus forte pour les fichiers externes.

Avant la modification

Lorsque vous interrogez des fichiers Avro, Parquet, Orc, CSV, JSON ou XML externes contenant des données UTF-8 non valides, les requêtes aboutissent généralement.

Après la modification

Lorsque vous interrogez des fichiers Avro, Parquet, Orc, CSV, JSON ou XML externes contenant des données UTF-8 non valides, les requêtes échouent.

Si vous chargez des fichiers externes avec COPY INTO <table> ou Snowpipe qui contiennent des données UTF-8 non valides, Snowflake procède avec l’option de copie ON_ERROR = CONTINUE. Snowflake considère l’enregistrement qui contient des données UTF-8 non valides comme une erreur et continuera à charger le fichier.

Pour éviter les erreurs de validation UTF-8, Snowflake vous recommande de spécifier REPLACE_INVALID_CHARACTERS = TRUE pour votre format de fichier afin que tout caractère UTF-8 non valide soit remplacé par le caractère de remplacement Unicode ().

Pour les fichiers Parquet, vous pouvez également définir BINARY_AS_TEXT = FALSE pour votre format de fichier afin que les colonnes sans type de données logique défini soient interprétées comme des données binaires au lieu d’être interprétées comme du texte UTF-8.

Notez que ce changement de comportement ne s’applique pas aux comptes existants qui chargent des caractères UTF8 non valides. Cela ne concerne que les nouveaux comptes. Pour tout problème, contactez le support Snowflake.

Réf : 1013 1014