Spark용 Snowflake 커넥터

Spark용 Snowflake Connector(“Spark 커넥터”)는 Snowflake를 Apache Spark 에코시스템으로 가져와 Spark가 Snowflake에서 데이터를 읽고 쓸 수 있도록 해줍니다. Spark의 관점에서 Snowflake는 기타 Spark 데이터 소스(PostgreSQL, HDFS, S3 등)와 유사합니다.

참고

Spark 사용의 대체 수단으로, Snowpark API 를 대신 사용하기 위한 코드를 작성해 보십시오. Snowpark를 사용하면 (별도의 Spark 컴퓨팅 클러스터가 아닌) Snowflake 내에서 모든 작업을 수행할 수 있습니다. Snowpark는 Snowflake UDF를 포함한 모든 작업의 ​​푸시다운도 지원합니다.그러나 Iceberg 테이블에 행 및 열 정책을 적용하려면 Snowflake Spark Connector를 사용합니다. 자세한 내용은 Apache Spark™에서 Apache Iceberg™ 테이블 쿼리 시 데이터 보호 정책 적용 섹션을 참조하세요.

Snowflake는 여러 버전의 Spark 커넥터를 지원합니다.

  • Snowflake Connector: Spark 버전 3.2, 3.3 및 3.4.

    • 각 버전의 Spark에는 별도의 Snowflake 커넥터 버전이 있습니다. 사용 중인 Spark 버전에 적합한 올바른 버전의 커넥터를 사용하십시오.

  • Spark Connector 3.x: Spark 버전 3.2, 3.3, 3.4 및 3.5.

    • 각 Spark Connector 3 패키지는 대부분의 Spark 버전을 지원합니다.

커넥터는 Spark 플러그인으로 실행되며 Spark 패키지(spark-snowflake)로 제공됩니다.

Spark에서 액세스하는 Apache Iceberg 테이블에 데이터 보호 정책 적용하기

Snowflake는 Snowflake Horizon Catalog를 통해 Apache Spark™에서 쿼리하는 Apache Iceberg 테이블에 대한 행 액세스 및 데이터 마스킹 정책 적용을 지원합니다. 이 적용을 활성화하려면 Spark Connector 3.1.6 이상 버전을 설치해야 합니다. Spark Connector는 Spark를 Snowflake에 연결하여 Iceberg 테이블에 구성된 정책을 평가합니다. 자세한 내용은 Apache Spark™에서 Apache Iceberg™ 테이블 쿼리 시 데이터 보호 정책 적용 섹션을 참조하십시오.

다음 항목: