테이블 설계 고려 사항¶

이 항목에서는 테이블을 설계하고 관리할 때의 모범 사례, 일반 지침 및 중요한 고려 사항을 설명합니다.

열의 날짜/시간 데이터 타입¶

날짜 또는 타임스탬프가 포함된 열을 정의하는 경우에는 문자 데이터 타입이 아닌 날짜 또는 타임스탬프 데이터 타입 을 선택하는 것이 좋습니다. Snowflake에서는 VARCHAR 데이터에 비해 DATE 및 TIMESTAMP 데이터의 저장 효율성이 높으므로, 쿼리 성능이 향상됩니다. 필요한 세분성 수준에 따라 적합한 날짜 또는 타임스탬프 데이터 타입을 선택합니다.

참조 무결성 제약 조건¶

표준 테이블에 생성되는 경우 기본 키/외래 키 관계로 정의된 참조 무결성 제약 조건은 정보 제공용이며 강제 적용되지는 않습니다. NOT NULL 제약 조건은 적용되지만 다른 제약 조건은 적용되지 않습니다. 그러나 하이브리드 테이블 에는 제약 조건이 적용됩니다. 제약 조건의 개요 섹션을 참조하십시오.

일반적으로 제약 조건은 귀중한 메타데이터를 제공합니다. 기본 키와 외래 키를 사용하면 프로젝트 팀이 스키마 디자인을 이해하고 테이블과 열 간의 관계를 확인할 수 있습니다.

또한, 대부분의 비즈니스 인텔리전스(BI) 및 시각화 도구는 테이블과 함께 외래 키 정의를 가져와 올바른 조인 조건을 빌드합니다. 이 접근법은 테이블을 조인하는 방법을 추측하고 도구를 수동으로 구성하는 것보다 시간을 절약할 수 있고 오류 발생 가능성이 적습니다. 기본 키와 외래 키를 기반으로 조인을 수행하면 조인을 다른 개발자가 해석할 필요가 없으므로 설계에 통합성을 제공합니다. 일부 BI 및 시각화 도구는 제약 조건 정보를 활용하여 조인 제거를 사용하는 등 쿼리를 보다 효율적으로 다시 작성할 수도 있습니다(예제: 조인 제거).

CREATE | ALTER TABLE … CONSTRAINT 명령을 사용하여 테이블을 생성 또는 수정할 때 제약 조건을 지정합니다.

다음 예에서, 두 번째 테이블(salesorders)에 대한 CREATE TABLE 문은 첫 번째 테이블(salespeople)의 열을 참조하는 외래 키 제약 조건을 정의합니다.

CREATE OR REPLACE TABLE salespeople (
  sp_id INT NOT NULL UNIQUE,
  name VARCHAR DEFAULT NULL,
  region VARCHAR,
  constraint pk_sp_id PRIMARY KEY (sp_id)
);
CREATE OR REPLACE TABLE salesorders (
  order_id INT NOT NULL UNIQUE,
  quantity INT DEFAULT NULL,
  description VARCHAR,
  sp_id INT NOT NULL UNIQUE,
  constraint pk_order_id PRIMARY KEY (order_id),
  constraint fk_sp_id FOREIGN KEY (sp_id) REFERENCES salespeople(sp_id)
);

from snowflake.core import CreateMode
from snowflake.core.table import ForeignKey, PrimaryKey, Table, TableColumn, UniqueKey

my_table = Table(
  name="salespeople",
  columns=[
      TableColumn(name="sp_id", datatype="int", nullable=False, constraints=[UniqueKey(name='unk')]),
      TableColumn(name="name", datatype="varchar", default="NULL"),
      TableColumn(name="region", datatype="varchar")
  ],
  constraints=[PrimaryKey(name="pk_sp_id", column_names=["sp_id"])]
)
root.databases["<database>"].schemas["<schema>"].tables.create(my_table, mode=CreateMode.or_replace)

my_table = Table(
  name="salesorders",
  columns=[
      TableColumn(name="order_id", datatype="int", nullable=False, constraints=[UniqueKey(name='unk')]),
      TableColumn(name="quantity", datatype="int", default="NULL"),
      TableColumn(name="description", datatype="varchar"),
      TableColumn(name="sp_id", datatype="int", nullable=False, constraints=[UniqueKey(name='unk')])
  ],
  constraints=[
      ForeignKey(referenced_table_name = "salespeople", referenced_column_names=["sp_id"], name="fk_sp_id", column_names=["sp_id"]),
      PrimaryKey(name="pk_order_id", column_names=["order_id"])
  ]
)
root.databases["<database>"].schemas["<schema>"].tables.create(my_table, mode=CreateMode.or_replace)

GET_DDL 함수를 쿼리하여 지정된 테이블을 다시 생성하기 위해 실행할 수 있는 DDL 문을 검색합니다. 이 문에는 현재 테이블에 설정된 제약 조건이 포함되어 있습니다.

예:

SELECT GET_DDL('TABLE', 'mydb.public.salesorders');

+-----------------------------------------------------------------------------------------------------+
| GET_DDL('TABLE', 'MYDB.PUBLIC.SALESORDERS')                                                         |
|-----------------------------------------------------------------------------------------------------|
| create or replace TABLE SALESORDERS (                                                               |
|   ORDER_ID NUMBER(38,0) NOT NULL,                                                                   |
|   QUANTITY NUMBER(38,0),                                                                            |
|   DESCRIPTION VARCHAR(16777216),                                                                    |
|   SP_ID NUMBER(38,0) NOT NULL,                                                                      |
|   unique (SP_ID),                                                                                   |
|   constraint PK_ORDER_ID primary key (ORDER_ID),                                                    |
|   constraint FK_SP_ID foreign key (SP_ID) references MYDATABASE.PUBLIC.SALESPEOPLE(SP_ID)           |
| );                                                                                                  |
+-----------------------------------------------------------------------------------------------------+

아니면, Information Schema에서 TABLE_CONSTRAINTS 뷰 를 쿼리하여 스키마를 기준으로(또는 데이터베이스의 모든 스키마에서) 모든 테이블 제약 조건 목록을 검색합니다.

예:

SELECT table_name, constraint_type, constraint_name
  FROM mydb.INFORMATION_SCHEMA.TABLE_CONSTRAINTS
  WHERE constraint_schema = 'PUBLIC'
  ORDER BY table_name;

+-------------+-----------------+-----------------------------------------------------+
| TABLE_NAME  | CONSTRAINT_TYPE | CONSTRAINT_NAME                                     |
|-------------+-----------------+-----------------------------------------------------|
| SALESORDERS | UNIQUE          | SYS_CONSTRAINT_fce2257e-c343-4e66-9bea-fc1c041b00a6 |
| SALESORDERS | FOREIGN KEY     | FK_SP_ID                                            |
| SALESORDERS | PRIMARY KEY     | PK_ORDER_ID                                         |
| SALESORDERS | UNIQUE          | SYS_CONSTRAINT_bf90e2b3-fd4a-4764-9576-88fb487fe989 |
| SALESPEOPLE | PRIMARY KEY     | PK_SP_ID                                            |
+-------------+-----------------+-----------------------------------------------------+

클러스터링 키를 설정해야 하는 경우¶

대부분의 테이블에서는 클러스터링 키 를 지정할 필요가 없습니다. 최적화 엔진과 마이크로 파티셔닝을 통해 Snowflake가 자동 튜닝을 수행합니다. 대부분의 경우, 데이터는 날짜 또는 타임스탬프를 기준으로 마이크로 파티션으로 로드 및 구성되며 동일한 차원을 따라 쿼리됩니다.

언제 테이블에 대한 클러스터링 키를 지정해야 합니까? 우선, 소규모 테이블을 클러스터링하는 경우에는 일반적으로 쿼리 성능이 크게 향상되지 않습니다.

더 큰 규모의 데이터 세트의 경우 다음 시점에 테이블에 대한 클러스터링 키를 지정할 수 있습니다.

데이터가 로드되는 순서가 가장 일반적으로 쿼리되는 차원과 일치하지 않습니다(예: 데이터는 날짜별로 로드되지만 보고서는 ID별 데이터를 기준으로 필터링함). 기존 스크립트 또는 보고서가 날짜 및 ID(및 잠재적으로 세 번째 또는 네 번째 열) 모두를 기준으로 데이터를 쿼리하는 경우 다중 열 클러스터링 키를 생성하여 성능이 약간 향상될 수 있습니다.
쿼리 프로필 은 테이블에 대한 일반적인 쿼리의 총 지속 시간 중 상당한 비율이 스캔에 소비되었음을 나타냅니다. 이는 하나 이상의 특정 열을 필터링하는 쿼리에 적용됩니다.

재클러스터링은 기존 데이터를 다른 순서로 다시 씁니다. 이전 주문은 Fail-safe 보호를 제공하기 위해 7일 동안 저장됩니다. 테이블을 재클러스터링하면 재정렬되는 데이터의 크기와 관련된 컴퓨팅 비용이 발생합니다.

자세한 내용은 자동 클러스터링 섹션을 참조하십시오.

열 길이를 지정해야 하는 경우¶

Snowflake는 열 데이터를 효과적으로 압축합니다. 따라서 필요한 열보다 큰 열을 생성하면 데이터 테이블의 크기에 미치는 영향이 최소화됩니다. 마찬가지로 최대 길이 선언(예: VARCHAR(134217728))이 있는 열과 더 작은 정밀도가 있는 열 간에는 쿼리 성능 차이가 없습니다.

그러나 열 데이터의 크기를 예측할 수 있는 경우 다음과 같은 이유로 적절한 열 길이를 정의하는 것이 좋습니다.

데이터 로딩 작업은 순서 없이 로딩된 열과 같은 문제를 감지할 가능성이 더 높습니다. 예를 들어, 50자 문자열이 VARCHAR(10) 열에 잘못 로딩되는 경우입니다. 이러한 문제는 오류를 생성합니다.
열 길이가 지정되지 않은 경우 일부 서드 파티 도구는 최대 크기 값을 소비할 것으로 예상할 수 있으며, 이로 인해 클라이언트 측 메모리 사용량이 증가하거나 비정상적인 동작이 발생할 수 있습니다.

반정형 데이터를 VARIANT 열에 저장하기 vs 중첩 구조 평면화¶

반정형 데이터에 대해 어떤 타입의 작업을 수행하고 싶은지 아직 확실하지 않은 경우에는 임시로 VARIANT 열에 데이터를 저장하는 것이 좋습니다. 대부분이 일반 타입이고 기본 타입(문자열 및 정수)만 사용하는 데이터의 경우 VARIANT 열의 관계형 데이터 및 데이터에 대한 작업에 대한 저장 요구 사항 및 쿼리 성능은 매우 유사합니다.

정리를 향상하고 저장소 사용량을 줄이려면 반정형 데이터에 다음이 포함되는 경우 오브젝트 및 키 데이터를 별도의 관계형 열로 평면화하는 것이 좋습니다.

날짜 및 타임스탬프, 특히 ISO 8601이 아닌 날짜 및 타임스탬프, 문자열 값
문자열 내의 숫자
배열

날짜 및 타임스탬프와 같은 기본이 아닌 값은 VARIANT 열에 로딩될 때 문자열로 저장되므로, 이러한 값에 대한 작업은 해당 데이터 타입으로 관계형 열에 저장할 때보다 속도가 느려지고 공간도 더 많이 사용할 수 있습니다.

데이터에 대한 사용 사례를 알고 있는 경우 일반적인 데이터 세트에 대해 테스트를 수행합니다. 데이터 세트를 테이블의 VARIANT 열에 로드합니다. FLATTEN 함수를 사용하여 쿼리할 오브젝트와 키를 별도의 테이블로 추출합니다. 두 테이블에 대해 일반적인 쿼리 세트를 실행하여 최상의 성능을 제공하는 구조를 확인합니다.

영구 테이블을 임시 테이블로 또는 그 반대로 변환¶

현재는 ALTER TABLE 명령을 사용하여 영구 테이블을 일시적 테이블로 변경할 수 없습니다. TRANSIENT 속성은 테이블 생성 시 설정되며 수정할 수 없습니다.

마찬가지로 임시 테이블을 영구 테이블로 직접 변경할 수 없습니다.

데이터 및 열 기본값, 부여된 권한 등의 기타 특성을 유지하면서 기존 영구 테이블을 일시적 테이블로(또는 그 반대로) 변환하려면 다음 예제에 설명된 대로 인터페이스 중 하나를 사용하여 새 테이블을 만들 수 있습니다.

CREATE TABLE 명령의 COPY GRANTS 절을 사용합니다.

CREATE TRANSIENT TABLE my_new_table LIKE my_old_table COPY GRANTS;

TableCollection.create 메서드의 like_table 및 copy_grants 인자를 사용합니다.

from snowflake.core.table import Table

my_table = Table(
  name="my_new_table",
  kind="TRANSIENT"
)
tables = root.databases["<database>"].schemas["<schema>"].tables
tables.create(my_table, like_table="my_old_table", copy_grants=True)

그런 다음 INSERT 명령을 사용하여 데이터를 복사본으로 만듭니다.

INSERT INTO my_new_table SELECT * FROM my_old_table;

부여된 권한 및 기타 특성은 유지하되 모든 데이터를 보존하려는 경우 다음 인터페이스 중 하나를 사용할 수 있습니다.

CREATE TABLE AS SELECT (CTAS) 문을 사용합니다.

CREATE TRANSIENT TABLE my_transient_table AS SELECT * FROM mytable;

TableCollection.create 메서드의 as_select 인자를 사용합니다.

from snowflake.core.table import Table

my_table = Table(
  name="my_transient_table",
  kind="TRANSIENT"
)
tables = root.databases["<database>"].schemas["<schema>"].tables
tables.create(my_table, as_select="SELECT * FROM mytable")

테이블의 복사본을 만드는 또 다른 방법(수명 주기를 영구에서 일시적으로 변경)은 다음 인터페이스 중 하나를 사용하여 테이블을 복제하는 것입니다.

CREATE TABLE 명령의 CLONE 절을 사용합니다.

CREATE TRANSIENT TABLE foo CLONE bar COPY GRANTS;

TableCollection.create 메서드의 clone_table 인자를 사용합니다.

from snowflake.core.table import Table

my_table = Table(
  name="foo",
  kind="TRANSIENT"
)
tables = root.databases["<database>"].schemas["<schema>"].tables
tables.create(my_table, clone_table="bar", copy_grants=True)

이전 파티션은 영향을 받지 않지만 (일시적이지 않음), 복제본에 추가된 새 파티션은 일시적인 수명 주기를 따릅니다.

사용자는 일시적 테이블을 영구 테이블로 복제할 수 없습니다.