Validação de UTF-8 mais forte para arquivos externos

Essa mudança de comportamento foi implementada com a versão 7.34. Para obter os detalhes mais atualizados sobre mudanças de comportamento, consulte o Log de mudança de comportamento.

Snowflake tem validação de UTF-8 mais forte para arquivos externos.

Antes da mudança

Quando você consulta arquivos externos Avro, Parquet, Orc, CSV, JSON ou XML que contêm dados UTF-8 inválidos, as consultas geralmente são bem-sucedidas.

Após a mudança

Quando você consulta arquivos externos Avro, Parquet, Orc, CSV, JSON ou XML que contêm dados UTF-8 inválidos, as consultas falham.

Se você carregar arquivos externos com COPY INTO <tabela> ou Snowpipe que contenham dados UTF-8 inválidos, o Snowflake continua com a opção de cópia ON_ERROR = CONTINUE. O Snowflake considera o registro que contém dados UTF-8 inválidos como um erro e continua a carregar o arquivo.

Para evitar erros de validação UTF-8, Snowflake recomenda que você especifique REPLACE_INVALID_CHARACTERS = TRUE para o formato de arquivo para que quaisquer caracteres UTF-8 inválidos sejam substituídos pelo caractere de substituição Unicode ().

Para arquivos Parquet, você também pode definir BINARY_AS_TEXT = FALSE como formato de arquivo para que as colunas sem tipo de dados lógicos definidos sejam interpretadas como dados binários em vez de texto UTF-8.

Observe que essa mudança de comportamento não se aplica a contas existentes que estão carregando caracteres UTF8 inválidos. Afeta apenas novas contas. Para qualquer problema, entre em contato com o suporte Snowflake.

Ref: 1013 1014