Stärkere UTF-8-Validierung für externe Dateien¶
Diese Verhaltensänderung wurde mit Release 7.34 eingeführt. Aktuelle Details zu den Verhaltensänderungen finden Sie unter Änderungsprotokoll für Verhaltensänderungen (Behavior Change Log).
Snowflake bietet stärkere UTF-8-Validierung für externe Dateien.
- Vor der Änderung:
Wenn Sie externe Avro-, Parquet-, Orc-, CSV-, JSON- oder XML-Dateien abfragen, die ungültige UTF-8-Daten enthalten, sind die Abfragen normalerweise erfolgreich.
- Nach der Änderung:
Wenn Sie externe Avro-, Parquet-, Orc-, CSV-, JSON- oder XML-Dateien abfragen, die ungültige UTF-8-Daten enthalten, schlagen die Abfragen fehl.
Wenn Sie externe Dateien, die ungültige UTF-8 Daten enthalten, mit COPY INTO <Tabelle> oder Snowpipe laden, fährt Snowflake die Verarbeitung mit der Kopieroption
ON_ERROR = CONTINUE
fort. Snowflake betrachtet den Datensatz, der ungültige UTF-8-Daten enthält, als Fehler und fährt mit dem Laden der Datei fort.
Um UTF-8-Validierungsfehler zu vermeiden, empfiehlt Snowflake, dass Sie für Ihr Dateiformat REPLACE_INVALID_CHARACTERS = TRUE
angeben, sodass für alle ungültigen UTF-8-Zeichen das Unicode-Ersetzungszeichen (�
) verwendet wird.
Bei Parquet-Dateien können Sie für Ihr Dateiformat auch BINARY_AS_TEXT = FALSE
einstellen, sodass Spalten ohne definierten logischen Datentyp als Binärdaten statt als UTF-8-Text interpretiert werden.
Beachten Sie, dass diese Verhaltensänderung nicht für bestehende Konten gilt, die derzeit ungültige UTF8-Zeichen laden. Die Änderung betrifft nur neue Konten. Bei Problemen wenden Sie sich an den Snowflake-Support.
Ref.: 1013 1014