Apache Iceberg™ 테이블 관리하기¶

테이블 쿼리하기
DML 명령 사용
DML 변경 사항의 스냅샷 생성하기
행 수준 삭제 사용
대상 파일 크기 설정하기
Snowflake 관리 Iceberg 테이블을 위한 테이블 최적화
외부 카탈로그를 사용하는 테이블 관리하기
테이블 메타데이터 새로 고침
저장소 메트릭 검색하기
데이터 압축 설정
Iceberg 테이블에 기본값 사용
Iceberg 테이블과 함께 행 계보 사용
Iceberg 테이블을 Azure Data Lake Storage로 마이그레이션

외부 카탈로그를 사용하는 Iceberg 테이블을 Snowflake를 Iceberg 카탈로그로 사용하는 테이블로 변환할 수도 있습니다. 자세한 내용은 Snowflake를 카탈로그로 사용하도록 Apache Iceberg™ 테이블을 변환하기 을 참조하십시오.

테이블 쿼리하기¶

Iceberg 테이블을 쿼리하려면 사용자에게 다음 권한을 부여하거나 상속해야 합니다.

테이블이 포함된 데이터베이스 및 스키마에 대한 USAGE 권한
테이블에 대한 SELECT 권한

SELECT 문을 사용하여 Iceberg 테이블을 쿼리할 수 있습니다. 예:

SELECT col1, col2 FROM my_iceberg_table;

참고

Snowflake와 함께 외부 쿼리 엔진을 사용하여 Iceberg 테이블을 쿼리할 수도 있습니다. 자세한 내용은 Apache Iceberg™ 테이블에 외부 쿼리 엔진 사용하기 섹션을 참조하세요.

DML 명령 사용¶

Snowflake를 카탈로그로 사용하는 Iceberg 테이블은 다음을 포함한 전체 데이터 조작 언어(DML) 명령 을 지원합니다.

Snowflake로 관리되는 테이블은 COPY INTO <테이블> 및 Snowpipe 같은 기능을 사용하여 효율적인 대량 로딩도 지원합니다. 자세한 내용은 Apache Iceberg™ 테이블에 데이터 로드하기 섹션을 참조하십시오.

참고

Snowflake는 외부 관리형 Iceberg 테이블에 대한 쓰기도 지원합니다. 자세한 내용은 외부 관리형 |iceberg-tm|테이블에 대한 쓰기 지원 및 외부 관리형 Iceberg 테이블에 쓰기 섹션을 참조하세요.
Snowflake 관리형 Iceberg 테이블의 경우 DML 작업이 예기치 않게 실패하고 롤백되면 일부 Parquet 파일이 외부 클라우드 저장소에 기록될 수 있지만 Iceberg 테이블 메타데이터에서 추적되거나 참조되지 않습니다. 이러한 Parquet 파일은 연결 없는 파일입니다.

외부 클라우드 저장소와 Snowflake의 저장소 사용량이 일치하지 않는 경우, 외부 클라우드 저장소에 연결 없는 파일이 있을 수 있습니다. Snowflake의 저장소 사용량을 확인하기 위해, TABLE_STORAGE_METRICS 뷰 또는 :doc:`/sql-reference/account-usage/table_storage_metrics`를 사용할 수 있습니다. 불일치를 발견한 경우 연결 없는 파일이 있는지 확인하고 제거하는 데 도움이 필요하면 `Snowflake 지원`_에 문의하세요.

예: 테이블 업데이트하기¶

INSERT 및 UPDATE 문을 사용하여 Snowflake 관리 Iceberg 테이블을 수정할 수 있습니다.

다음 예제에서는 store_sales 라는 Iceberg 테이블에 새 값을 삽입한 다음, 값이 현재 -99인 경우 cola 열을 1로 업데이트합니다.

INSERT INTO store_sales VALUES (-99);

UPDATE store_sales
  SET cola = 1
  WHERE cola = -99;

DML 변경 사항의 스냅샷 생성하기¶

Snowflake를 카탈로그로 사용하는 테이블의 경우 Snowflake는 Iceberg 메타데이터를 자동으로 생성합니다. Snowflake는 메타데이터를 외부 볼륨의 metadata 폴더에 씁니다. metadata 폴더를 찾으려면 데이터 및 메타데이터 디렉터리 섹션을 참조하십시오.

또는 SYSTEM$GET_ICEBERG_TABLE_INFORMATION 함수를 호출하여 새로운 변경 사항에 대한 Iceberg 메타데이터를 생성할 수 있습니다.

Snowflake에서 관리하지 않는 테이블의 경우 이 함수는 최신 새로 고침된 스냅샷에 대한 정보를 반환합니다.

예:

SELECT SYSTEM$GET_ICEBERG_TABLE_INFORMATION('db1.schema1.it1');

출력:

+-----------------------------------------------------------------------------------------------------------+
| SYSTEM$GET_ICEBERG_TABLE_INFORMATION('DB1.SCHEMA1.IT1')                                                   |
|-----------------------------------------------------------------------------------------------------------|
| {"metadataLocation":"s3://mybucket/metadata/v1.metadata.json","status":"success"}                         |
+-----------------------------------------------------------------------------------------------------------+

행 수준 삭제 사용¶

Snowflake는 행 수준 삭제로 테이블을 쿼리하고 행 수준 삭제를 사용하여 테이블에 쓰기를 지원합니다.

테이블 쿼리¶

업데이트, 삭제, 병합 작업에 행 수준 삭제 를 구성한 경우 Snowflake는 외부에서 관리되는 Iceberg 테이블 을 쿼리할 수 있도록 지원합니다.

행 수준 삭제를 구성하려면 Apache Iceberg 설명서에서 value 속성 을 참조하십시오.

위치 삭제 파일을 사용하여 테이블에 쓰기¶

참고

외부에서 관리되는 Iceberg 테이블에만 지원됩니다.
위치 행 수준 삭제를 사용하려면 Iceberg 테이블의 Iceberg 버전이 기본값인 v2로 설정되어 있는지 확인합니다. 자세한 내용은 ICEBERG_VERSION_DEFAULT 섹션을 참조하십시오. Iceberg 버전이 v3으로 설정된 경우 Snowflake의 merge-on-read 동작은 삭제 벡터를 사용하는 것입니다.

Snowflake는 Amazon S3, Azure 또는 Google Cloud에 저장된 외부 관리형 Iceberg 테이블에 쓰기 위한 위치 행 수준 삭제를 지원합니다. copy-on-write 모드에서 DML 작업을 실행시키는 위치 삭제를 끄려면 테이블, 스키마 또는 데이터베이스 수준에서 ENABLE_ICEBERG_MERGE_ON_READ 매개 변수를 FALSE로 설정합니다.

삭제 벡터를 사용하여 테이블에 쓰기¶

행 수준 데이터 수정을 최적화하기 위해 Snowflake는 Amazon S3, Azure 또는 Google Cloud에 저장된 외부 관리 및 Snowflake 관리 Iceberg 테이블에 쓰기 위한 삭제 벡터를 지원합니다. 삭제 벡터를 통해 Snowflake는 “merge-on-read”(MOR) 작업을 수행하여 다음 DML 문에 대한 쓰기 성능을 개선합니다.

DELETE
UPDATE
MERGE

Snowflake는 큰 데이터 파일을 다시 작성하는 대신 작은 벡터 파일을 작성하여 이러한 성능을 달성합니다. 자세한 내용은 Apache Iceberg 사양의 `삭제 벡터 <https://iceberg.apache.org/spec/#deletion-vectors>`_를 참조하세요.

삭제 벡터 활성화¶

삭제 벡터를 활성화하려면 다음 단계를 완료합니다.

:ref:`tables-iceberg-configuring-default-version`의 지침에 따라 Iceberg 테이블의 기본 Iceberg 버전을 v3으로 설정합니다.

참고

Iceberg 테이블의 기본 Iceberg 버전이 v2인 경우 Snowflake는 위치 삭제 파일을 사용하여 “merge-on-read”(MOR) 작업을 수행합니다.
label-enable_iceberg_merge_on_read`의 지침에 따라 :code:`ENABLE_ICEBERG_MERGE_ON_READ 매개 변수를 기본값인 :code:`TRUE`로 설정합니다.
copy-on-write 모드에서 DML 작업을 수행하려면 ENABLE_ICEBERG_MERGE_ON_READ 매개 변수를 FALSE로 설정합니다.

삭제 벡터에 대한 사용법 노트¶

기본 동작
- ENABLE_ICEBERG_MERGE_ON_READ의 시스템 기본값은 TRUE입니다.
쓰기 메서드 휴리스틱
- ENABLE_ICEBERG_MERGE_ON_READ를 TRUE로 설정하는 경우 Snowflake는 휴리스틱을 사용하여 merge-on-read 또는 copy-on-write를 사용할지 여부를 파일별로 결정합니다.
  - 행 수: Snowflake는 데이터 파일에서 ~5% 미만의 행이 삭제되는 경우에만 삭제 벡터를 작성합니다. 5% 이상 삭제되는 경우 Snowflake는 copy-on-write를 사용하여 파일을 다시 작성합니다.
  - 파일 크기: Snowflake가 삭제 벡터를 쓰려면 데이터 파일이 약 1.6MB보다 커야 합니다.
호환성
- 아직 Iceberg v3 삭제 벡터를 지원하지 않는 컴퓨팅 엔진을 사용하는 경우 ENABLE_ICEBERG_MERGE_ON_READ를 FALSE로 설정하여 모든 쓰기에 대해 copy-on-write를 적용합니다.
매개 변수 우선
- Snowflake는 쓰기 방법을 결정하기 위해 ENABLE_ICEBERG_MERGE_ON_READ 매개 변수만 확인합니다. 다음 Iceberg 테이블 속성은 인식하지 못합니다.
  - write.delete.mode
  - write.update.mode
  - write.merge.mode

copy-on-write 대 merge-on-read¶

Iceberg는 컴퓨팅 엔진이 외부에서 관리되는 테이블의 행 수준 작업을 처리하는 방법을 구성하는 두 가지 모드를 제공합니다. Snowflake는 이 두 가지 모드를 모두 지원합니다.

다음 테이블에서는 각 모드를 사용할 수 있는 경우에 대해 설명합니다.


모드	설명
copy-on-write(기본값)	이 모드는 읽기 시간의 우선순위를 정하고 쓰기 속도에 영향을 줍니다. 업데이트, 삭제 또는 병합 작업을 수행하면 컴퓨팅 엔진이 영향을 받는 전체 Parquet 데이터 파일을 다시 작성합니다. 특히 대용량 데이터 파일이 있는 경우 쓰기 속도가 느려질 수 있지만 읽기 시간에는 영향을 미치지 않습니다. 이 모드가 기본 모드입니다.
merge-on-read	이 모드는 쓰기 속도를 우선시하며 읽기 시간에 약간의 영향을 줍니다. 업데이트, 삭제 또는 병합 작업을 수행하면 컴퓨팅 엔진에서 변경된 행에 대한 정보만 포함된 삭제 파일을 생성합니다. 테이블에서 읽을 때 쿼리 엔진은 삭제 파일을 데이터 파일과 병합합니다. 병합하면 읽기 시간이 늘어날 수 있습니다. 그러나 정기적인 압축 및 테이블 유지 관리를 예약하여 읽기 성능을 최적화할 수 있습니다.

Iceberg의 행 수준 변경에 대한 자세한 내용은 Apache Iceberg 설명서의 행 수준 삭제 를 참조하십시오.

고려 사항 및 제한 사항¶

Iceberg 테이블에서 행 수준 삭제를 사용할 때 다음 정보를 고려하세요.

Snowflake는 v2 Iceberg 테이블에 대해서만 `위치 삭제 <https://iceberg.apache.org/spec/#position-delete-files>`_를 지원하며, v3 Iceberg 테이블에 대해서는 `삭제 벡터 <https://iceberg.apache.org/spec/#deletion-vectors>`_를 지원합니다.
Snowflake는 외부 관리형 Iceberg 테이블을 사용한 위치 삭제만 지원합니다.
행 수준 삭제를 사용할 때 최상의 읽기 성능을 얻으려면 정기적으로 압축 및 테이블 유지 관리를 수행하여 오래된 삭제 파일을 제거하십시오. 자세한 내용은 외부 카탈로그를 사용하는 테이블 관리하기 섹션을 참조하십시오.
과도한 위치 삭제, 특히 허상 위치 삭제는 테이블 생성 및 새로 고침 작업을 방해할 수 있습니다. 이 문제를 방지하려면 테이블 유지 관리를 수행하여 추가 위치 삭제를 제거합니다.

사용할 테이블 유지 관리 방법은 외부 Iceberg 엔진에 따라 다릅니다. 예를 들어, delete-file-threshold 또는 rewrite-all 옵션과 함께 Spark의 rewrite_data_files 메서드를 사용할 수 있습니다. 자세한 내용은 Apache Iceberg™ 설명서의 `rewrite_data_files<https://iceberg.apache.org/docs/latest/spark-procedures/#rewrite_data_files>`_ 섹션을 참조하세요.

대상 파일 크기 설정하기¶

Spark 또는 Trino와 같은 외부 Iceberg 엔진의 쿼리 성능을 개선하려면 Snowflake 관리형 및 쓰기 지원이 있는 외부 관리형 Iceberg 테이블 모두에 대해 대상 파일 크기를 구성하면 됩니다. 특정 크기(16MB, 32MB, 64MB 또는 128MB)를 설정하거나 AUTO 옵션을 사용할 수 있습니다. AUTO는 테이블 유형에 따라 다르게 작동합니다.

Snowflake 관리형 테이블: AUTO는 Snowflake가 크기, DML 패턴, 수집 워크로드, 클러스터링 구성과 같은 테이블 특성을 기반으로 테이블의 파일 크기를 선택하도록 지정합니다. Snowflake는 Snowflake의 읽기 및 쓰기 성능을 향상하기 위해 16MB부터 시작하여 파일 크기를 자동으로 조정합니다.
외부 관리형 테이블: AUTO는 Snowflake가 더 큰 파일 크기로 적극적으로 확장하도록 지정합니다.

Iceberg 테이블을 생성할 때 대상 파일 크기를 설정하거나 ALTER ICEBERG TABLE 명령을 실행하여 기존 Iceberg 테이블의 대상 파일 크기를 변경합니다. Snowflake는 테이블에 대한 Parquet 파일을 작성할 때 파일 크기를 대상 크기에 가깝게 유지하려고 시도합니다.

대상 파일 크기를 설정한 후 Snowflake는 새 데이터 조작 언어(DML) 작업을 위해 즉시 더 큰 파일을 만들기 시작합니다. Snowflake의 테이블 유지 관리 작업은 대상 파일 크기에 따라 기존 테이블 파일을 비동기적으로 변경합니다.

다음 예제에서는 TARGET_FILE_SIZE를 사용하여 Snowflake 관리형 테이블에 대한 대상 파일 크기를 128MB로 설정합니다.

CREATE ICEBERG TABLE my_iceberg_table (col1 INT)
  CATALOG = 'SNOWFLAKE'
  EXTERNAL_VOLUME = 'my_external_volume'
  BASE_LOCATION = 'my_iceberg_table'
  TARGET_FILE_SIZE = '128MB';

또는 :doc:`/sql-reference/sql/alter-iceberg-table`을 사용하여 기존 테이블에 대한 TARGET_FILE_SIZE 속성을 설정합니다.

ALTER ICEBERG TABLE my_iceberg_table
  SET TARGET_FILE_SIZE = '32MB';

테이블에 대한 TARGET_FILE_SIZE 속성 값을 확인하려면 SHOW PARAMETERS 명령을 사용합니다.

SHOW PARAMETERS LIKE 'target_file_size' FOR my_iceberg_table;

Snowflake 관리 Iceberg 테이블을 위한 테이블 최적화¶

테이블 최적화는 Snowflake 관리 Iceberg 테이블의 성능을 개선하고 저장소 비용을 줄이기 위해 자동으로 유지 관리를 수행합니다.

참고

Snowflake는 Snowflake 관리형 Iceberg 테이블에 대해 연결 없는 파일 삭제를 지원하지 않습니다. 외부 클라우드 저장소와 Snowflake의 저장소 사용량이 일치하지 않는 경우, 외부 클라우드 저장소에 연결 없는 파일이 있을 수 있습니다. Snowflake의 저장소 사용량을 확인하기 위해, TABLE_STORAGE_METRICS 뷰 또는 :doc:`/sql-reference/account-usage/table_storage_metrics`를 사용할 수 있습니다. 불일치를 발견한 경우 연결 없는 파일이 있는지 확인하고 제거하는 데 도움이 필요하면 `Snowflake 지원`_에 문의하세요.
쿼리 성능을 개선하기 위해 대상 파일 크기를 설정할 수도 있습니다. 자세한 내용은 대상 파일 크기 설정하기 섹션을 참조하세요.

Snowflake는 다음 표에 요약된 Iceberg 테이블 최적화 기능을 지원합니다.


특징	쿼리 성능 개선	저장소 비용 절감	참고
자동 클러스터링 ^[1]	✔	✔	요금이 청구됩니다. 기본적으로 비활성화됩니다.
데이터 압축	✔	✔	요금이 청구됩니다. 기본적으로 활성화됩니다.
매니페스트 압축	✔	✔	비용이 없습니다. 자동으로 활성화됩니다. 비활성화할 수 없습니다.
스냅샷 만료	✔	✔	비용이 없습니다. 자동으로 활성화됩니다. 비활성화할 수 없습니다.

_{[1] 다른 테이블 최적화 기능과 달리, 자동 클러스터링은 독립 실행형 기능으로 별도로 요금이 청구됩니다.}

자동 클러스터링¶

자동 클러스터링은 자주 쿼리되는 열을 기준으로 파일 또는 파티션 내의 데이터를 재구성합니다. 대상 파일 크기를 설정하지 않는 한, Iceberg 테이블의 파일 크기는 클러스터링 구성을 기준으로 합니다. 대상 파일 크기를 설정하면 파일 크기는 사용자가 설정한 특정 크기가 됩니다. 자세한 내용은 대상 파일 크기 설정하기 섹션을 참조하십시오.

자동 클러스터링을 설정하려면 Snowflake 관리 Iceberg 테이블을 생성하거나 기존 테이블을 수정할 때 CLUSTER BY 매개 변수를 지정합니다. 자세한 내용은 다음을 참조하십시오.

자동 클러스터링에 대한 자세한 내용은 자동 클러스터링 섹션을 참조하세요.

데이터 압축¶

데이터 압축은 작은 파일을 더 크고 효율적인 파일로 결합하여 저장소를 관리하고, 최적의 파일 크기를 유지하고, 쿼리 성능을 개선합니다.

대부분의 경우 데이터 압축은 컴퓨팅 비용에 큰 영향을 미치지 않지만, 이러한 비용이 우려되는 경우 압축을 비활성화할 수 있습니다. 예를 들어, 테이블을 거의 쿼리하지 않는 경우 테이블에서 압축을 비활성화할 수 있습니다. 데이터 압축을 비활성화하거나 활성화하려면 데이터 압축 설정 섹션을 참조하세요.

참고

Iceberg 테이블에 대한 데이터 압축 작업을 쿼리하려면 ICEBERG_STORAGE_OPTIMIZATION_HISTORY 뷰 섹션을 참조하세요. 이 뷰에는 데이터 압축에 대해 청구된 크레딧 수가 포함됩니다.
:doc:`/user-guide/tables-auto-reclustering`이 활성화된 경우 클러스터링은 테이블에서 데이터 압축을 수행합니다. 이는 테이블에서 데이터 압축의 활성화 여부에 관계없이 적용됩니다.
대상 파일 크기를 설정하는 옵션도 있습니다. 자세한 내용은 대상 파일 크기 설정하기 섹션을 참조하십시오.

매니페스트 압축¶

매니페스트 압축은 더 작은 매니페스트 파일을 재구성하고 결합하여 메타데이터 계층을 최적화합니다. 이 압축은 메타데이터 오버헤드를 줄이고 쿼리 성능을 개선합니다.

이 기능은 자동으로 활성화되며 비활성화할 수 없습니다.

스냅샷 만료¶

스냅샷 만료는 테이블의 기록에서 오래된 스냅샷과 해당 고유 데이터 및 메타데이터 파일을 체계적으로 삭제합니다. 이 삭제는 미리 정의된 보존 정책을 기준으로 합니다.

이 기능은 자동으로 활성화되며 비활성화할 수 없습니다.

외부 카탈로그를 사용하는 테이블 관리하기¶

Snowflake는 외부 관리 Iceberg 테이블에 대한 유지 관리 작업을 수행하지 않습니다. 다음과 같은 유지 관리 작업을 수행하려면 자체 외부 Iceberg 엔진을 사용해야 합니다.

스냅샷 만료
이전 메타데이터 파일 제거하기
데이터 파일 압축하기

중요

외부 변경 사항에 따라 Iceberg 테이블을 동기화하려면 Snowflake 새로 고침 일정을 테이블 유지 관리와 맞추는 것이 중요합니다. 유지 관리 작업을 수행할 때마다 테이블을 새로 고칩니다.

Snowflake로 관리되지 않는 Iceberg 테이블의 유지 관리에 대해 알아보려면 Apache Iceberg 설명서의 유지 관리 를 참조하십시오.

테이블 메타데이터 새로 고침¶

외부 Iceberg 카탈로그를 사용하는 경우 ALTER ICEBERG TABLE … REFRESH 명령을 사용하여 테이블 메타데이터를 새로 고칠 수 있습니다. 테이블 메타데이터를 새로 고치면 메타데이터가 가장 최근 테이블 변경 사항과 동기화됩니다.

참고

지원되는 외부 관리 테이블에 대해 자동 새로 고침 을 설정하는 것이 좋습니다.

테이블의 메타데이터 새로 고치기¶

다음 예제에서는 외부 카탈로그(예: AWS Glue 또는 Delta)를 사용하는 테이블의 메타데이터를 수동으로 새로 고칩니다. 테이블을 새로 고치면 원격 카탈로그에서 발생한 모든 변경 사항과 테이블이 동기화됩니다.

이러한 유형의 Iceberg 테이블을 사용할 경우 명령에 메타데이터 파일 경로를 지정하지 않습니다.

ALTER ICEBERG TABLE my_iceberg_table REFRESH;

테이블을 자동으로 업데이트하려면 자동 새로 고침 을 설정할 수 있습니다. ALTER ICEBERG TABLE 명령을 사용합니다.

예:

ALTER ICEBERG TABLE my_iceberg_table SET AUTO_REFRESH = TRUE;

Iceberg 파일에서 생성된 테이블의 메타데이터 새로 고치기¶

다음 예제에서는 외부 클라우드 저장소에 있는 Iceberg 메타데이터 파일 에서 생성된 테이블을 수동으로 새로 고치며, 선행 슬래시(/) 없이 메타데이터 파일의 상대 경로를 지정합니다. 메타데이터 파일은 새로 고친 후 테이블의 데이터를 정의합니다.

ALTER ICEBERG TABLE my_iceberg_table REFRESH 'metadata/v1.metadata.json';

저장소 메트릭 검색하기¶

Snowflake는 Snowflake 관리 Iceberg 테이블 저장소 비용을 사용자의 계정에 청구하지 않습니다. 그러나 Snowflake Information Schema 또는 Account Usage 스키마에서 TABLE_STORAGE_METRICS 및 TABLES 뷰를 쿼리하여 Snowflake 관리 Iceberg 테이블이 차지하는 저장 용량을 추적할 수 있습니다.

다음 예제 쿼리는 ACCOUNT_USAGE.TABLE_STORAGE_METRICS 뷰를 ACCOUNT_USAGE.TABLES 뷰와 조인하여 TABLES.IS_ICEBERG 열을 필터링합니다.

SELECT metrics.* FROM
  snowflake.account_usage.table_storage_metrics metrics
  INNER JOIN snowflake.account_usage.tables tables
  ON (
    metrics.id = tables.table_id
    AND metrics.table_schema_id = tables.table_schema_id
    AND metrics.table_catalog_id = tables.table_catalog_id
  )
  WHERE tables.is_iceberg='YES';

데이터 압축 설정¶

데이터베이스, 스키마 또는 테이블을 생성하거나 ALTER 명령을 사용하여 기존 데이터베이스, 스키마 또는 테이블의 설정을 변경할 때 Snowflake 관리 Iceberg 테이블에 대한 데이터 압축을 설정할 수 있습니다. ALTER ACCOUNT 명령을 사용하여 계정 수준에서 데이터 압축을 설정할 수도 있습니다. 데이터 압축에 대한 자세한 내용은 데이터 압축 섹션을 참조하세요.

다음 예에서는 ENABLE_DATA_COMPACTION을 사용하여 Snowflake 관리 테이블에 대한 데이터 압축을 비활성화합니다.

CREATE ICEBERG TABLE my_iceberg_table (col1 INT)
  CATALOG = 'SNOWFLAKE'
  EXTERNAL_VOLUME = 'my_external_volume'
  BASE_LOCATION = 'my_iceberg_table'
  ENABLE_DATA_COMPACTION = FALSE;

또는 :doc:`/sql-reference/sql/alter-iceberg-table`을 사용하여 기존 테이블에 대해 데이터 압축을 비활성화합니다.

ALTER ICEBERG TABLE my_iceberg_table
  SET ENABLE_DATA_COMPACTION = FALSE;

자세한 내용은 다음을 참조하십시오.

Iceberg 테이블에 기본값 사용¶

참고

이 미리 보기에서 지원되는 다른 Iceberg v3 기능은 Apache Iceberg™ 테이블: Apache Iceberg™ v3에 대한 지원(미리 보기) 섹션을 참조하세요.

이 미리 보기에서는 Iceberg v3 사양에 따라 Apache Iceberg™ 테이블에 대한 기본값 기능을 지원합니다.

중요

Iceberg 테이블에서 기본값을 사용하려면 테이블이 Apache Iceberg™ 테이블 사양의 v3을 준수해야 합니다. 테이블의 Iceberg 버전을 구성하는 방법에 대한 지침은 기본 Iceberg 버전 구성 섹션을 참조하세요.

This feature lets you set default values for existing and new records without having to rewrite existing data files. You can set the following default values for table columns:

필드가 추가될 때 기존 레코드의 기본값을 제공하는 초기 기본값.
쓰기 중에 기본값이 있는 필드가 지정되지 않은 경우 새 레코드의 기본값을 제공하는 쓰기 기본값.

이 기능을 사용하면 과거 데이터에 대한 값을 제시하면서 스키마를 발전시키고 향후 쓰기를 위한 대체 값을 제공할 수 있습니다. 자세한 내용은 `기본값 <https://iceberg.apache.org/spec/#default-values>`_을 참조하세요.

테이블을 생성하거나 수정할 때 기본값을 지정할 수 있습니다.

열의 기본값이 있는 테이블을 생성하려면 열 정의와 DEFAULT 키워드를 사용합니다. 지정하는 값은 열의 초기 기본값과 쓰기 기본값 모두로 설정됩니다. 열의 초기 기본값은 변경할 수 없습니다.
기본값이 있는 열을 테이블에 추가하려면 ALTER ICEBERG TABLE 명령에서 열 정의와 DEFAULT 키워드를 사용합니다. 지정하는 값은 열의 초기 기본값과 쓰기 기본값 모두로 설정됩니다. 열의 초기 기본값은 변경할 수 없습니다.
열의 쓰기 기본값을 변경하려면 ALTER ICEBERG TABLE 명령과 WRITE DEFAULT 키워드를 사용합니다.

중요

열의 기본값을 지정하는 경우 정적 값을 지정해야 하며, 해당 값에 대해 식이나 함수를 지정할 수 없습니다. 이 요구 사항은 Iceberg v3 사양에 따르며 초기 기본값과 쓰기 기본값 모두에 적용됩니다.

다음 섹션에는 기본값을 지정하고 기본 쓰기 값을 변경하는 방법의 예제가 포함되어 있습니다.

예: 기본값으로 테이블 생성¶

기본값으로 Iceberg 테이블을 생성하려면 CREATE ICEBERG TABLE 명령을 사용합니다.

다음 예제에서는 Snowflake 관리 Iceberg 테이블을 생성할 때 먼저 열의 기본값을 설정합니다. 다음으로, 기본값이 있는 열의 값을 지정하지 않고 테이블에 레코드를 삽입합니다.

user_events 테이블을 생성하고, 해당 테이블에 기본값이 2``인 ``event_version 열을 포함합니다.
```
CREATE ICEBERG TABLE user_events (
    event_id INT,
    user_id INT,
    event_type STRING,
    event_time TIMESTAMP,
    event_version INT DEFAULT 2
  )
  CATALOG = 'SNOWFLAKE'
  EXTERNAL_VOLUME = 'my_external_volume'
  BASE_LOCATION = 'database/schema/user_event'
  ICEBERG_VERSION = 3;
```
테이블 정의에서 기본값을 설정하면 초기 기본값과 쓰기 기본값이 설정됩니다. 열에는 쓰기 기본값이 있으므로 ``event_version``이 쓰기 중에 지정되지 않은 경우 ``2``는 새 레코드에 사용됩니다.
``event_version``이 지정된 로그인 이벤트를 추가합니다.
```
INSERT INTO user_events VALUES
  (1, 101, 'login', '2025-11-01 10:00:00', 1);
```
구매 이벤트를 추가하되 ``event_version``을 지정하지 않습니다.
```
INSERT INTO user_events VALUES
(1, 101, 'purchase', '2025-11-01 10:01:00');
```
결과적으로, Snowflake는 ``event_version``의 값을 테이블에 ``2``로 입력합니다.

테이블을 쿼리합니다.

SELECT * FROM user_events;

출력:

+-----------+----------+-------------+---------------------+----------------+
| event_id  | user_id  | event_type  | event_time          | event_version  |
+-----------+----------+-------------+---------------------+----------------+
| 1         | 101      | login       | 2025-11-01 10:00:00 | 1              |
| 1         | 101      | purchase    | 2025-11-01 10:01:00 | 2              |
+-----------+----------+-------------+---------------------+----------------+

예: 기존 테이블에 기본값이 있는 열 추가¶

Iceberg 테이블에 기본값이 있는 새 열을 추가하려면 ALTER ICEBERG TABLE 명령을 사용합니다.

다음 예제에서는 기본값이 2``인 ``event_version 열을 추가하여 user_events 테이블을 수정합니다.

ALTER ICEBERG TABLE user_events ADD COLUMN event_version INT DEFAULT 2;

쓰기 기본값을 설정 외에도, 기본값이 있는 열을 추가하면 열의 초기 기본값도 설정됩니다. 결과적으로, event_version 열에 대한 기존 레코드의 기본값은 ``2``입니다.

예: 열의 쓰기 기본값 변경¶

다음 예제에서는 user_events 테이블의 event_version 열에 대한 쓰기 기본값을 ``3``으로 변경합니다.

ALTER ICEBERG TABLE user_events ALTER COLUMN event_version SET WRITE DEFAULT 3;

테이블에 대해 정의된 기본값 확인¶

Snowflake 관리 또는 외부 관리 Iceberg 테이블에서 테이블 열의 기본값을 확인하려면 DESCRIBE ICEBERG TABLE 명령을 실행한 후 출력에서 DEFAULT 열 및 WRITE DEFAULT 열을 확인합니다.

DEFAULT 열은 Apache Iceberg 사양의 initial-default 값에 매핑됩니다.
WRITE DEFAULT 열은 Apache Iceberg 사양의 write-default 값에 매핑됩니다.

이러한 열은 테이블이 v2 Iceberg 테이블인지 또는 v3 Iceberg 테이블인지 여부에 관계없이 출력에서 반환합니다.

다음 예제에서는 user_events 테이블에 대한 열을 설명합니다. 이 테이블에는 event_version 열에 대해 지정된 초기 기본값 및 쓰기 기본값이 있습니다.

DESC ICEBERG TABLE user_events
  ->> SELECT
    "name",
    "kind",
    "default",
    "write default"
      FROM $1;

출력:

+-----------------+---------+---------+---------------+
| name            | kind    | default | write default |
+-----------------+---------+-------------------------+
| EVENT_ID        | COLUMN  |         |               |
| USER_ID         | COLUMN  |         |               |
| EVENT_TYPE      | COLUMN  |         |               |
| EVENT_TIME      | COLUMN  |         |               |
| EVENT_VERSION   | COLUMN  | 2       | 3             |
+-----------------+---------+---------+---------------+

쓰기 기본값 삭제¶

열의 쓰기 기본값을 삭제하려면 ALTER ICEBERG TABLE 명령과 DROP WRITE DEFAULT 키워드를 사용합니다.

다음 예제에서는 event_version 열에 대한 기본 쓰기 값을 삭제합니다.

ALTER ICEBERG TABLE user_events ALTER COLUMN event_version DROP WRITE DEFAULT;

기본값에 대한 고려 사항 및 제한 사항¶

Snowflake 관리 및 외부 관리 Iceberg 테이블과 함께 기본값을 사용할 때는 다음 사항을 고려하세요.

Snowflake 관리 및 외부 관리 Iceberg 테이블¶

열을 생성한 후에는 나중에 열의 초기 기본값을 추가하거나 변경할 수 없습니다. 따라서 ALTER TABLE … DROP COLUMN 및 ALTER TABLE … ADD COLUMN 명령을 사용하여 열을 삭제하고 추가해야 합니다.
기본값의 최대 크기는 128|~|MB입니다.
기본값은 상수로 나타낼 수 없는 데이터 타입을 사용할 수 없으므로, 다음 데이터 타입을 기본값과 함께 사용할 수 없습니다.
- map
- list
- struct
- variant

Snowflake 관리형 Iceberg 테이블¶

write-default 값은 항상 initial-default 값으로 초기화됩니다. 이러한 두 값의 기본값을 확인하려면 DESCRIBE ICEBERG TABLE 명령을 실행한 후, 출력에서 WRITE DEFAULT 및 DEFAULT 열을 확인합니다.
TIMESTAMP_NTZ(9) 또는 TIMESTAMP_LTZ(9) 데이터 타입을 사용하는 기본값은 지정할 수 없습니다.
테이블을 *생성*할 때 기본값은 ``DEFAULT pi()``와 같은 식에만 설정할 수 있습니다. ALTER ICEBERG TABLE 명령을 사용하여 테이블을 *수정*할 때는 식에 기본값을 설정할 수 없습니다.

시퀀스는 지원되지 않습니다.

예를 들어, 다음 CREATE ICEBERG TABLE 명령은 ``LOG_ID NUMBER(38,0) NOT NULL autoincrement order``를 포함하기 때문에 실패합니다.

CREATE OR REPLACE ICEBERG TABLE CDC_RUN_LOG (
    LOG_ID NUMBER(38,0) NOT NULL autoincrement order,
    ENTITY_NAME VARCHAR(100),
    LAST_RUN TIMESTAMP_NTZ(9),
    DAG_NAME VARCHAR(100)
    )
    CATALOG = 'SNOWFLAKE'
    EXTERNAL_VOLUME = 'my_external_volume'
    BASE_LOCATION = 'my_iceberg_table';
    COMMENT='CDC table to manage log of runs'
    ICEBERG_VERSION = 3;

외부 관리 Iceberg 테이블¶

TIMESTAMP_NTZ(9) 또는 TIMESTAMP_LTZ(9) 데이터 타입을 사용하는 기본값은 지정할 수 없습니다.

이러한 고려 사항과 제한 사항은 Iceberg v3의 기능인 기본값에 적용됩니다. 모든 Iceberg v3 테이블에 적용되는 고려 사항 및 제한 사항 목록은 Iceberg v3 기능에 대한 고려 사항 및 제한 사항 섹션을 참조하세요.

Iceberg 테이블과 함께 행 계보 사용¶

참고

이 미리 보기에서 지원되는 다른 Iceberg v3 기능은 Apache Iceberg™ 테이블: Apache Iceberg™ v3에 대한 지원(미리 보기) 섹션을 참조하세요.

이 미리 보기에서는 Apache Iceberg™ 테이블의 행 계보 기능을 지원합니다. 이 기능을 사용하면 Snowflake가 Iceberg 테이블에 다음 열을 자동으로 기록합니다.

_row_id
_last_updated_sequence_number

이 기능을 사용하면 쿼리 엔진이 스냅샷 전체에서 동일한 행을 안정적으로 일치시키고 행 수준 변경 사항을 감지할 수 있습니다. 자세한 내용은 `행 계보 <https://iceberg.apache.org/spec/#row-lineage>`_를 참조하세요.

이 기능은 Snowflake 관리 Iceberg 테이블과 외부 관리 Iceberg 테이블 모두에서 지원됩니다.

중요

Iceberg 테이블에서 행 계보를 사용하려면 테이블이 Apache Iceberg™ 테이블 사양의 v3을 준수해야 합니다. 테이블의 Iceberg 버전을 구성하는 방법에 대한 지침은 기본 Iceberg 버전 구성 섹션을 참조하세요.

행 계보에 대한 고려 사항 및 제한 사항¶

행 계보는 다음 사항을 고려하여 스트림에서 지원됩니다.

Append-only 스트림과 표준 스트림은 Snowflake 관리 Iceberg v3 테이블에서 지원됩니다.
Insert-only 스트림과 표준 스트림은 외부 관리형 Iceberg v3 테이블에서 지원됩니다.
- 표준 스트림이 올바른 결과를 생성하도록 하려면 외부 엔진이 Iceberg v3 사양과 관련하여 Iceberg v3 테이블에 작성해야 합니다. 특히, 새로 삽입된 행에는 :code:`_row_id=NULL`이 있어야 합니다. copy-on-write 중에 복사된 행은 :code:`_row_id`를 유지해야 합니다.
- MAX_DATA_EXTENSION_TIME_IN_DAYS는 외부 관리 Iceberg v3 테이블에서는 작동하지 않습니다.
DMLs가 다중 문 트랜잭션을 통해 커밋되는 경우, Iceberg v3 테이블의 append-only 스트림은 Iceberg v2 테이블과 의미 체계가 다릅니다.
- Iceberg v2에서 append-only 스트림의 경우 다중 문 트랜잭션에서 행이 추가된 후 삭제되면 이 행은 삽입으로 간주됩니다.
- Iceberg v3에서 append-only 스트림의 경우 이 행은 삽입으로 처리되지 않습니다.

이러한 고려 사항과 제한 사항은 Iceberg v3의 기능인 행 계보에 적용됩니다. 모든 Iceberg v3 테이블에 적용되는 고려 사항 및 제한 사항 목록은 Iceberg v3 기능에 대한 고려 사항 및 제한 사항 섹션을 참조하세요.

Iceberg 테이블을 Azure Data Lake Storage로 마이그레이션¶

이 섹션에서는 기존 Iceberg 테이블을 Azure의 Blob Storage에서 Data Lake Storage로 마이그레이션하는 방법을 보여줍니다.

참고

아직 테이블을 생성하지 않은 경우 Data Lake Storage를 사용하는 외부 볼륨을 구성한 다음, Data Lake Storage에 테이블을 생성하기만 하면 됩니다.

Azure에서 Data Lake Storage만 사용하도록 구성된 원격 카탈로그와 테이블을 상호 운용할 수 있도록 이 마이그레이션을 수행할 수 있습니다. 자세한 내용은 Data Lake Storage를 사용하는 원격 카탈로그와의 상호 운용성 활성화 섹션을 참조하십시오.

Iceberg 테이블을 Azure Data Lake Storage로 마이그레이션하려면 다음 단계를 따릅니다.

Data Lake Storage에 연결된 새 외부 볼륨을 구성합니다.

미리 보기 기능 — 공개

모든 계정에서 사용 가능합니다. Data Lake Storage에 연결된 외부 볼륨 구성이 공개 미리 보기로 제공됩니다.

이 외부 볼륨을 구성하려면 STORAGE_BASE_URL 매개 변수에 dfs.core.windows.net 엔드포인트를 가리키는 URL을 지정합니다. 자세한 내용은 Azure의 외부 볼륨 구성 섹션을 참조하십시오.
```
CREATE EXTERNAL VOLUME exvoldfs
  STORAGE_LOCATIONS =
    (
      (
        NAME = 'my-azure-northeurope'
        STORAGE_PROVIDER = 'AZURE'
        STORAGE_BASE_URL = 'azure://exampleacct.dfs.core.windows.net/my_container_northeurope/'
        AZURE_TENANT_ID = 'a123b4c5-1234-123a-a12b-1a23b45678c9'
      )
    );
```
Blob Storage의 기존 테이블에서 데이터를 로드하기 위한 외부 스테이지를 생성합니다.

이 외부 스테이지를 생성하려면 URL 매개 변수에 Blob Storage에 저장된 테이블의 기본 위치(예: azure://myaccount.blob.core.windows.net/container/my_iceberg_table.<randomId>)를 지정합니다. 자세한 내용은 CREATE STAGE 섹션을 참조하십시오.
Data Lake Storage에 새 테이블을 생성하고 Blob Storage에 있는 테이블의 데이터로 이 테이블을 로드하여 Data Lake Storage에 테이블을 다시 생성합니다. 예제는 다음 섹션을 참조하세요.
- 예제: Iceberg 호환 Parquet 파일 로드하기
- 예시: INFER_SCHEMA 함수를 사용하여 생성한 테이블에 Iceberg 호환 Parquet 파일 로딩하기
중요
- Data Lake Storage에서 테이블을 생성할 때 Data Lake Storage에 연결된 외부 볼륨의 이름을 지정해야 합니다. 이 외부 볼륨을 지정하려면 CREATE ICEBERG TABLE 문의 EXTERNAL_VOLUME 매개 변수를 사용합니다.
- Blob Storage의 테이블에서 Data lake Storage의 Iceberg 테이블로 데이터를 로드할 때 Blob Storage의 테이블에 대한 데이터 파일을 참조하는 외부 스테이지의 이름을 지정해야 합니다. 이 외부 스테이지를 지정하려면 COPY INTO 문의 FROM … 매개 변수를 사용합니다.