Conector Snowflake para Spark¶
O conector Snowflake para Spark (“conector Spark”) traz o Snowflake para o ecossistema Apache Spark, permitindo que o Spark leia e grave dados do Snowflake. Da perspectiva do Spark, o Snowflake parece similar a outras fontes de dados Spark (PostgreSQL, HDFS, S3, etc.).
Nota
As an alternative to using Spark, consider writing your code to use Snowpark API instead. Snowpark allows you to perform all of your work within Snowflake (rather than in a separate Spark compute cluster). Snowpark also supports pushdown of all operations, including Snowflake UDFs. However, when you want to enforce row and column policies on Iceberg tables, use the Snowflake Spark Connector. For more information, see Aplicar políticas de proteção de dados ao consultar tabelas Apache Iceberg™ pelo Apache Spark™.
O Snowflake é compatível com várias versões do conector Spark:
Spark Connector 2.x: versões 3.2, 3.3 e 3.4 do Spark.
Há uma versão separada do conector Snowflake para cada versão do Spark. Use a versão correta do conector para sua versão do Spark.
Spark Connector 3.x: versões 3.2, 3.3, 3.4 e 3.5 do Spark.
Cada pacote do Spark Connector 3 é compatível com a maioria das versões do Spark.
O conector funciona como um plugin do Spark e é fornecido como um pacote Spark (spark-snowflake).
Aplicar políticas de proteção de dados a tabelas Apache Iceberg acessadas pelo Spark¶
O Snowflake oferece suporte à aplicação de políticas de mascaramento de dados e acesso a linhas a tabelas Apache Iceberg que você consulta no Apache Spark™ por meio do Snowflake Horizon Catalog. Para habilitar essa aplicação, você deve instalar a versão 3.1.6 ou mais recente do conector Spark. O conector Spark conecta o Spark ao Snowflake para avaliar as políticas que estão configuradas nas tabelas Iceberg. Para obter mais informações, consulte Aplicar políticas de proteção de dados ao consultar tabelas Apache Iceberg™ pelo Apache Spark™.
Próximos tópicos: