Validação de UTF-8 mais forte para arquivos externos¶
Essa mudança de comportamento foi implementada com a versão 7.34. Para obter os detalhes mais atualizados sobre mudanças de comportamento, consulte o Log de mudança de comportamento.
Snowflake tem validação de UTF-8 mais forte para arquivos externos.
- Antes da mudança:
Quando você consulta arquivos externos Avro, Parquet, Orc, CSV, JSON ou XML que contêm dados UTF-8 inválidos, as consultas geralmente são bem-sucedidas.
- Após a mudança:
Quando você consulta arquivos externos Avro, Parquet, Orc, CSV, JSON ou XML que contêm dados UTF-8 inválidos, as consultas falham.
Se você carregar arquivos externos com COPY INTO <tabela> ou Snowpipe que contenham dados UTF-8 inválidos, o Snowflake continua com a opção de cópia
ON_ERROR = CONTINUE
. O Snowflake considera o registro que contém dados UTF-8 inválidos como um erro e continua a carregar o arquivo.
Para evitar erros de validação UTF-8, Snowflake recomenda que você especifique REPLACE_INVALID_CHARACTERS = TRUE
para o formato de arquivo para que quaisquer caracteres UTF-8 inválidos sejam substituídos pelo caractere de substituição Unicode (�
).
Para arquivos Parquet, você também pode definir BINARY_AS_TEXT = FALSE
como formato de arquivo para que as colunas sem tipo de dados lógicos definidos sejam interpretadas como dados binários em vez de texto UTF-8.
Observe que essa mudança de comportamento não se aplica a contas existentes que estão carregando caracteres UTF8 inválidos. Afeta apenas novas contas. Para qualquer problema, entre em contato com o suporte Snowflake.
Ref: 1013 1014