Validação de UTF-8 mais forte para arquivos externos

Essa mudança de comportamento foi implementada com a versão 7.34. Para obter os detalhes mais atualizados sobre mudanças de comportamento, consulte o Log de mudança de comportamento.

Snowflake tem validação de UTF-8 mais forte para arquivos externos.

Antes da mudança:

Quando você consulta arquivos externos Avro, Parquet, Orc, CSV, JSON ou XML que contêm dados UTF-8 inválidos, as consultas geralmente são bem-sucedidas.

Após a mudança:

Quando você consulta arquivos externos Avro, Parquet, Orc, CSV, JSON ou XML em um estágio com dados UTF-8 inválidos, as consultas falham.

Se você carregar arquivos externos com COPY INTO <tabela> ou Snowpipe com dados UTF-8 inválidos, o Snowflake prosseguirá com a opção de cópia ON_ERROR especificada na definição do objeto.

Ao consultar uma tabela externa, o Snowflake omite resultados para registros com dados UTF-8 inválidos. Após encontrar dados inválidos, o Snowflake continua escaneando o arquivo (semelhante a ON_ERROR = CONTINUE), mas não retorna uma mensagem de erro.

Para evitar erros de validação UTF-8, Snowflake recomenda que você especifique REPLACE_INVALID_CHARACTERS = TRUE para o formato de arquivo para que quaisquer caracteres UTF-8 inválidos sejam substituídos pelo caractere de substituição Unicode ().

Para arquivos Parquet, você também pode definir BINARY_AS_TEXT = FALSE como formato de arquivo para que as colunas sem tipo de dados lógicos definidos sejam interpretadas como dados binários em vez de texto UTF-8.

Observe que essa mudança de comportamento não se aplica a contas existentes que estão carregando caracteres UTF8 inválidos. Afeta apenas novas contas. Para qualquer problema, entre em contato com o suporte Snowflake.

Ref: 1013 1014