Validation UTF-8 plus forte pour les fichiers externes¶
Ce changement de comportement a été mis en œuvre avec la version 7.34. Pour obtenir les informations les plus récentes sur les changements de comportement, consultez le journal des changements de comportement.
Snowflake a renforcé la validation UTF-8 plus forte pour les fichiers externes.
- Avant la modification:
Lorsque vous interrogez des fichiers Avro, Parquet, Orc, CSV, JSON ou XML externes contenant des données UTF-8 non valides, les requêtes aboutissent généralement.
- Après la modification:
Lorsque vous interrogez des fichiers Avro, Parquet, Orc, CSV, JSON ou XML externes sur une zone de préparation contenant des données UTF-8 non valides, les requêtes échouent.
Si vous chargez des fichiers externes avec COPY INTO <table> ou Snowpipe qui contiennent des données UTF-8 non valides, Snowflake procède avec l’option de copie
ON_ERROR
spécifiée dans la définition d’objet.Lorsque vous interrogez une table externe, Snowflake omet les résultats des enregistrements contenant des données UTF-8 non valides. Après avoir rencontré des données non valides, Snowflake continue d’analyser le fichier (similaire à
ON_ERROR = CONTINUE
) mais ne renvoie pas de message d’erreur.
Pour éviter les erreurs de validation UTF-8, Snowflake vous recommande de spécifier REPLACE_INVALID_CHARACTERS = TRUE
pour votre format de fichier afin que tout caractère UTF-8 non valide soit remplacé par le caractère de remplacement Unicode (�
).
Pour les fichiers Parquet, vous pouvez également définir BINARY_AS_TEXT = FALSE
pour votre format de fichier afin que les colonnes sans type de données logique défini soient interprétées comme des données binaires au lieu d’être interprétées comme du texte UTF-8.
Notez que ce changement de comportement ne s’applique pas aux comptes existants qui chargent des caractères UTF8 non valides. Cela ne concerne que les nouveaux comptes. Pour tout problème, contactez le support Snowflake.
Réf : 1013 1014