Enable automatic table schema evolution¶

半構造化データは、時間の経過とともに進化する傾向があります。データを生成するシステムは、追加された情報に対応するために新しい列を追加し、それに応じて下流のテーブルを進化させる必要があります。

Snowflakeのテーブルの構造は、データソースから受け取った新しいデータの構造をサポートするために、自動的に進化させることができます。Snowflakeは、次をサポートしています。

新しい列の自動追加。

新しいデータファイルで欠落している列からの NOT NULL 制約の自動削除。

テーブルスキーマの進化を有効にするには、次を実行します。

新しいテーブルを作成する場合は、 CREATE TABLE コマンドを使用する際に、 ENABLE_SCHEMA_EVOLUTION パラメーターを TRUE に設定します。

既存のテーブルの場合は、 ALTER TABLE コマンドを使用してテーブルを変更し、 ENABLE_SCHEMA_EVOLUTION パラメーターを TRUE に設定します。

ファイルからのデータのロードでテーブル列が進化するのは、次のすべてが当てはまる場合です。

Snowflakeテーブルの ENABLE_SCHEMA_EVOLUTION パラメーターは TRUE に設定されています。

COPY INTO <テーブル> ステートメントは MATCH_BY_COLUMN_NAME オプションを使用します。

データのロードに使用されるロールは、テーブルに対する EVOLVE SCHEMA または OWNERSHIP の権限を持っている。

さらに、 CSV でスキーマを進化させる際に、 MATCH_BY_COLUMN_NAME と PARSE_HEADER を使用する場合は、 ERROR_ON_COLUMN_COUNT_MISMATCH をfalseに設定する必要があります。

スキーマの進化は独立した機能ですが、クラウドストレージにある一連のファイルから列定義を取得するスキーマ検出サポートと組み合わせて使用できます。。これらの機能を組み合わせると、クラウドストレージにある一連のデータファイルから新しいテーブルを作成し、列が追加または削除されて新しいソースデータファイルのスキーマが進化するとテーブルの列を変更する、連続データパイプラインを実現します。

使用上の注意¶

この機能は、Apache Avro、Apache Parquet、 CSV、 JSON、 ORC ファイルをサポートしています。

この機能は、 COPY INTO <テーブル> ステートメントとSnowpipeデータロードに限定されます。INSERT の操作で自動的にターゲットテーブルのスキーマを進化させることはできません。

Snowflake Ingest SDK を使用して:doc:Snowpipe Streaming </user-guide/snowpipe-streaming/data-load-snowpipe-streaming-overview> データを直接ロードすることは、スキーマ進化ではサポートされていません。Snowpipe Streamingを使用したKafkaコネクタは、スキーマ検出および進化をサポートしています。

デフォルトでは、この機能は、COPY の操作ごとに、最大100列の追加または1スキーマ以上の進化に制限されています。COPY の操作ごとに、100列を超える追加列または1つのスキーマをリクエストする場合は、Snowflakeサポートにお問い合わせください。

NOT NULL 列制約のドロップには制限はありません。

スキーマ進化は、次のビューとコマンドの SchemaEvolutionRecord 出力によって追跡されます:INFORMATION_SCHEMACOLUMNSView、 ACCOUNT_USAGE COLUMNS View、 DESCRIBE TABLE コマンド、および SHOW COLUMNS コマンド。

しかし、Snowpipe StreamingのKafkaコネクタでは、スキーマの進化は SchemaEvolutionRecord の出力では追跡されません。SchemaEvolutionRecord の出力は常に NULL を示します。

スキーマの進化後に列の名前が手動で変更または修正されると、スキーマの進化記録はクリアされます。

スキーマの進化はタスクではサポートされていません。

スキーマ進化のサポート:インジェスションメソッドの比較¶

特定のメタデータフィールド SchemaEvolutionRecord はスキーマの進化を追跡するために使用されます。このフィールドは INFORMATION_SCHEMA.COLUMNS ビュー、 DESCRIBE TABLE コマンド、および SHOW COLUMNS コマンドで表示できます。

以下のテーブルは、さまざまなSnowflakeインジェスションメソッドでのスキーマ進化のサポートと対応する SchemaEvolutionRecord 追跡動作をまとめたものです。


インジェスションメソッド	アーキテクチャまたはコンテキスト	スキーマ進化のサポートステータス	SchemaEvolutionRecord 追跡動作
ファイルベース（バッチ/マイクロバッチ）	COPY INTO <table> コマンド	包括的にサポート	ビュー/コマンドの追跡で表示されます。
ファイルベース（バッチ/マイクロバッチ）	Snowpipe 、自動ロードを使用	包括的にサポート	ビューまたはコマンドの追跡に表示されます。
行レベルでのストリーミング	Snowpipe Streaming （高性能アーキテクチャ）	包括的にサポート	ビューまたはコマンドの追跡に表示されます。
行レベルでのストリーミング	たとえばKafkaコネクタなど従来のアーキテクチャを使用したSnowpipe Streaming	Kafkaコネクタを使用した従来のアーキテクチャのみがサポートされており、追跡は制限されています。	常にビューまたはコマンドの追跡に NULL が表示されます。

例¶

次の例では、Parquetデータのセットから派生した列定義を持つテーブルを作成します。テーブルのスキーマの自動進化を有効にすると、名前と値のペアを追加したParquetファイルからさらにデータを読み取る際に、列がテーブルに自動で追加されます。

ステートメントで参照されている mystage ステージと my_parquet_format ファイル形式がすでに存在している必要があることに注意してください。ファイルのセットは、ステージ定義で参照されるクラウドストレージの場所に既にステージングされている必要があります。

この例は、 INFER_SCHEMA トピックの例に基づいて構築されています。

-- Create table t1 in schema d1.s1, with the column definitions derived from the staged file1.parquet file.
USE SCHEMA d1.s1;

CREATE OR REPLACE TABLE t1
  USING TEMPLATE (
    SELECT ARRAY_AGG(object_construct(*))
      FROM TABLE(
        INFER_SCHEMA(
          LOCATION=>'@mystage/file1.parquet',
          FILE_FORMAT=>'my_parquet_format'
        )
      ));

-- Row data in file1.parquet.
+------+------+------+
| COL1 | COL2 | COL3 |
|------+------+------|
| a    | b    | c    |
+------+------+------+

-- Describe the table.
-- Note that column c2 is required in the Parquet file metadata. Therefore, the NOT NULL constraint is set for the column.
DESCRIBE TABLE t1;
+------+-------------------+--------+-------+---------+-------------+------------+-------+------------+---------+-------------+
| name | type              | kind   | null? | default | primary key | unique key | check | expression | comment | policy name |
|------+-------------------+--------+-------+---------+-------------+------------+-------+------------+---------+-------------|
| COL1 | VARCHAR(16777216) | COLUMN | Y     | NULL    | N           | N          | NULL  | NULL       | NULL    | NULL        |
| COL2 | VARCHAR(16777216) | COLUMN | N     | NULL    | N           | N          | NULL  | NULL       | NULL    | NULL        |
| COL3 | VARCHAR(16777216) | COLUMN | Y     | NULL    | N           | N          | NULL  | NULL       | NULL    | NULL        |
+------+-------------------+--------+-------+---------+-------------+------------+-------+------------+---------+-------------+

-- Use the SECURITYADMIN role or another role that has the global MANAGE GRANTS privilege.
-- Grant the EVOLVE SCHEMA privilege to any other roles that could insert data and evolve table schema in addition to the table owner.

GRANT EVOLVE SCHEMA ON TABLE d1.s1.t1 TO ROLE r1;

-- Enable schema evolution on the table.
-- Note that the ENABLE_SCHEMA_EVOLUTION property can also be set at table creation with CREATE OR REPLACE TABLE
ALTER TABLE t1 SET ENABLE_SCHEMA_EVOLUTION = TRUE;

-- Load a new set of data into the table.
-- The new data drops the NOT NULL constraint on the col2 column.
-- The new data adds the new column col4.
COPY INTO t1
  FROM @mystage/file2.parquet
  FILE_FORMAT = (type=parquet)
  MATCH_BY_COLUMN_NAME = CASE_INSENSITIVE;

-- Row data in file2.parquet.
+------+------+------+
| col1 | COL3 | COL4 |
|------+------+------|
| d    | e    | f    |
+------+------+------+

-- Describe the table.
DESCRIBE TABLE t1;
+------+-------------------+--------+-------+---------+-------------+------------+-------+------------+---------+-------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| name | type              | kind   | null? | default | primary key | unique key | check | expression | comment | policy name | schema evolution record                                                                                                                                                                  |
|------+-------------------+--------+-------+---------+-------------+------------+-------+------------+---------+-------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| COL1 | VARCHAR(16777216) | COLUMN | Y     | NULL    | N           | N          | NULL  | NULL       | NULL    | NULL        | NULL                                                                                                                                                                                     |
| COL2 | VARCHAR(16777216) | COLUMN | Y     | NULL    | N           | N          | NULL  | NULL       | NULL    | NULL        | {"evolutionType":"DROP_NOT_NULL","evolutionMode":"COPY","fileName":"file2.parquet","triggeringTime":"2024-03-15 23:52:59.514000000Z","queryId":"01b303b8-0808-c9ed-0000-0971491b5932"}   |
| COL3 | VARCHAR(16777216) | COLUMN | Y     | NULL    | N           | N          | NULL  | NULL       | NULL    | NULL        | NULL                                                                                                                                                                                     |
| COL4 | VARCHAR(16777216) | COLUMN | Y     | NULL    | N           | N          | NULL  | NULL       | NULL    | NULL        | {"evolutionType":"ADD_COLUMN","evolutionMode":"COPY","fileName":"file2.parquet","triggeringTime":"2024-03-15 23:52:59.514000000Z","queryId":"01b303b8-0808-c9ed-0000-0971491b5932"}      |
+------+-------------------+--------+-------+---------+-------------+------------+-------+------------+---------+-------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
-- Note that since MATCH_BY_COLUMN_NAME is set as CASE_INSENSITIVE, all column names are retrieved as uppercase letters.