Conector Snowflake para Spark

O conector Snowflake para Spark (“conector Spark”) traz o Snowflake para o ecossistema Apache Spark, permitindo que o Spark leia e grave dados do Snowflake. Da perspectiva do Spark, o Snowflake parece similar a outras fontes de dados Spark (PostgreSQL, HDFS, S3, etc.).

Nota

Como alternativa ao uso do Spark, considere escrever seu código para usar Snowpark API em seu lugar. O Snowpark permite realizar todo o seu trabalho dentro do Snowflake (em vez de em um cluster de computação Spark separado). O Snowpark também oferece suporte a pushdown de todas as operações, incluindo as UDFs do Snowflake. No entanto, quando você quiser aplicar políticas de linha e coluna a tabelas Iceberg, use o conector Snowflake Spark. Para obter mais informações, consulte Aplicar políticas de proteção de dados ao consultar tabelas Apache Iceberg™ pelo Apache Spark™.

O Snowflake é compatível com várias versões do conector Spark:

  • Spark Connector 2.x: versões 3.2, 3.3 e 3.4 do Spark.

    • Há uma versão separada do conector Snowflake para cada versão do Spark. Use a versão correta do conector para sua versão do Spark.

  • Spark Connector 3.x: versões 3.2, 3.3, 3.4 e 3.5 do Spark.

    • Cada pacote do Spark Connector 3 é compatível com a maioria das versões do Spark.

O conector funciona como um plugin do Spark e é fornecido como um pacote Spark (spark-snowflake).

Aplicar políticas de proteção de dados a tabelas Apache Iceberg acessadas pelo Spark

O Snowflake oferece suporte à aplicação de políticas de mascaramento de dados e acesso a linhas a tabelas Apache Iceberg que você consulta no Apache Spark™ por meio do Snowflake Horizon Catalog. Para habilitar essa aplicação, você deve instalar a versão 3.1.6 ou mais recente do conector Spark. O conector Spark conecta o Spark ao Snowflake para avaliar as políticas que estão configuradas nas tabelas Iceberg. Para obter mais informações, consulte Aplicar políticas de proteção de dados ao consultar tabelas Apache Iceberg™ pelo Apache Spark™.

Próximos tópicos: