Snowflake Connector for Spark¶
Spark用Snowflakeコネクター(Sparkコネクター)は、SnowflakeをApache Sparkエコシステムに取り込み、SparkがSnowflakeからデータを読み書きできるようにします。Sparkの観点から見ると、Snowflakeは他のSparkデータソース(PostgreSQL、 HDFS、S3など)に似ています。
注釈
As an alternative to using Spark, consider writing your code to use Snowpark API instead. Snowpark allows you to perform all of your work within Snowflake (rather than in a separate Spark compute cluster). Snowpark also supports pushdown of all operations, including Snowflake UDFs. However, when you want to enforce row and column policies on Iceberg tables, use the Snowflake Spark Connector. For more information, see Apache Spark™から Apache Iceberg™ テーブルをクエリするときにデータ保護ポリシーを適用する.
Snowflakeは複数のバージョンのSparkコネクタをサポートしています。
Spark Connector 2.x:Sparkバージョン3.2、3.3、3.4。
Snowflakeコネクタには、Sparkのバージョンごとに個別のバージョンがあります。Sparkのバージョンに合った正しいバージョンのコネクタを使用します。
Spark Connector 3.x:Sparkバージョン3.2、3.3、3.4、3.5。
各Spark Connector 3パッケージは、ほとんどのバージョンのSparkをサポートしています。
コネクタはSparkプラグインとして実行され、Sparkパッケージ(spark-snowflake)として提供されます。
SparkからアクセスされるApache Icebergテーブルにデータ保護ポリシーを適用する¶
Snowflakeは、Snowflake Horizonカタログを通じてApache Spark™からクエリするApache Icebergテーブルに対する行アクセスおよびデータマスキングポリシーの適用をサポートしています。この適用を有効にするには、Sparkコネクタの3.1.6以降のバージョンをインストールする必要があります。SparkコネクタはSparkをSnowflakeに接続し、Icebergテーブルに設定されているポリシーを評価します。詳細については、 Apache Spark™から Apache Iceberg™ テーブルをクエリするときにデータ保護ポリシーを適用する をご参照ください。
次のトピック: