Snowflake Catalog SDK¶

Snowflake 카탈로그 SDK는 Apache Iceberg™ 버전 1.2.0 이상에서 사용할 수 있습니다.

Snowflake 카탈로그 SDK 를 사용하면 Apache Spark™ 또는 Trino와 같은 서드 파티 엔진을 사용하여 Iceberg 테이블 을 쿼리할 수 있습니다.

지원되는 카탈로그 작업¶

이 SDK는 Snowflake에서 Iceberg 메타데이터를 탐색할 수 있는 다음 명령을 지원합니다.

SHOW NAMESPACES
USE NAMESPACE
SHOW TABLES
USE DATABASE
USE SCHEMA

SDK에서는 현재 읽기 작업(SELECT 문)만 지원합니다.

설치 및 연결하기¶

Snowflake Catalog SDK를 설치하려면 최신 버전의 Iceberg 라이브러리 를 다운로드합니다.

Snowflake Catalog SDK를 사용하려면 1개 이상의 Iceberg 테이블이 포함된 Snowflake 데이터베이스가 필요합니다. Iceberg 테이블을 생성하려면 Snowflake에서 Apache Iceberg™ 테이블 생성 섹션을 참조하십시오.

연결을 설정하고 SDK에서 Iceberg 메타데이터가 있음을 확인한 후 Snowflake는 Iceberg 테이블과 연결된 외부 볼륨을 사용하여 Parquet 데이터에 액세스합니다.

Spark 사용 예제¶

참고

Snowflake Catalog SDK 와 함께 Trino를 사용하는 방법에 대해 알아보려면, Trino 설명서 를 참조하십시오.

SDK를 사용하여 테이블 데이터를 읽으려면 Spark 클러스터에 대해 다음 속성부터 구성하십시오.

spark-shell --packages org.apache.iceberg:iceberg-spark-runtime-3.3_2.13:1.2.0,net.snowflake:snowflake-jdbc:3.13.28
# Configure a catalog named "snowflake_catalog" using the standard Iceberg SparkCatalog adapter
--conf spark.sql.catalog.snowflake_catalog=org.apache.iceberg.spark.SparkCatalog
# Specify the implementation of the named catalog to be Snowflake's Catalog implementation
--conf spark.sql.catalog.snowflake_catalog.catalog-impl=org.apache.iceberg.snowflake.SnowflakeCatalog
# Provide a Snowflake JDBC URI with which the Snowflake Catalog will perform low-level communication with Snowflake services
--conf spark.sql.catalog.snowflake_catalog.uri='jdbc:snowflake://<account_identifier>.snowflakecomputing.com'
# Configure the Snowflake user on whose behalf to perform Iceberg metadata lookups
--conf spark.sql.catalog.snowflake_catalog.jdbc.user=<user_name>
# Provide the user password. To configure the credentials, you can provide either password or private_key_file.
--conf spark.sql.catalog.snowflake_catalog.jdbc.password=<password>
# Configure the private_key_file to use when connecting to Snowflake services; additional connection options can be found at https://docs.snowflake.com/en/user-guide/jdbc-configure.html
--conf spark.sql.catalog.snowflake_catalog.jdbc.private_key_file=<location of the private key>

Copy

참고

--conf spark.sql.catalog.snowflake_catalog.jdbc.property-name=property-value 구문을 사용하여 구성에서 모든 Snowflake 지원 JDBC 드라이버 연결 매개 변수 를 사용할 수 있습니다.

Spark 클러스터를 구성한 후 쿼리에 사용할 수 있는 테이블을 확인할 수 있습니다. 예:

spark.sessionState.catalogManager.setCurrentCatalog("snowflake_catalog");
spark.sql("SHOW NAMESPACES").show()
spark.sql("SHOW NAMESPACES IN my_database").show()
spark.sql("USE my_database.my_schema").show()
spark.sql("SHOW TABLES").show()

Copy

그런 다음 쿼리할 테이블을 선택할 수 있습니다.

spark.sql("SELECT * FROM my_database.my_schema.my_table WHERE ").show()

Copy

Python 및 Scala와 같은 언어에서 DataFrame 구조체를 사용하여 데이터를 쿼리할 수 있습니다.

df = spark.table("my_database.my_schema.my_table")
df.show()

Copy

참고

쿼리 실행 중에 벡터화된 읽기 오류가 발생하는 경우 spark.sql.iceberg.vectorization.enabled=false 를 구성하여 세션에 대해 벡터화된 읽기를 비활성화할 수 있습니다. 벡터화된 읽기를 계속 사용하려면 STORAGE_SERIALIZATION_POLICY 매개 변수를 설정하면 됩니다.

쿼리 캐싱¶

쿼리를 실행하면 Snowflake가 특정 시간 프레임(기본적으로 90초) 내에 결과를 캐시합니다. 해당 기간까지 대기 시간이 발생할 수 있습니다. 비교를 위해 프로그래밍 방식으로 데이터에 액세스하려는 경우 spark.sql.catalog.cache-enabled 속성을 false 로 설정하여 캐싱을 비활성화할 수 있습니다.

애플리케이션이 특정 대기 시간을 허용하도록 설계된 경우 spark.sql.catalog.cache.expiration-interval-ms 속성을 사용하여 대기 시간을 지정할 수 있습니다.

제한 사항¶

다음 제한 사항이 Snowflake Catalog SDK에 적용되며 이는 변경될 수 있습니다.

SDK에서는 현재 읽기 작업(SELECT 문)만 지원합니다.

Iceberg 테이블을 읽는 데는 Apache Spark와 Trino만 지원됩니다.

Iceberg Snowflake 테이블이 아닌 테이블에 액세스하는 데는 SDK를 사용할 수 없습니다.