JSON データパーティション分割

論理的で詳細なパスを使用して、S3バケット内のイベントデータをパーティション分割することが重要です。イベントデータがS3バケットに書き込まれた日付とともに、アプリケーションや場所などの詳細を識別することを含むパーティション構造を作成します。その後、1つのコマンドで、分割されたデータの一部をSnowflakeにコピーできます。最初にテーブルにデータを入力する時間、日、月、さらには年単位でデータをSnowflakeにコピーできます。

例:

s3://バケット名/アプリケーションワン/2016/07/01/11/

s3://バケット名/アプリケーションツー/場所ワン/2016/07/01/14/

条件:

バケット名

データへのアクセスに使用される一意のS3 URI 。

アプリケーションワンアプリケーションツー場所ワン など。

パス内にあるすべてのデータのソースの詳細を識別します。データは、書き込まれた日付ごとに整理できます。オプションの24時間ディレクトリは、各ディレクトリのデータ量を減らします。

注釈

S3は、Snowflakeが使用する COPY ステートメントごとにディレクトリリストを送信するため、各ディレクトリ内のファイル数を減らすと、 COPY ステートメントのパフォーマンスが向上します。1時間ごとに10~15分単位のフォルダーを作成することも検討できます。

次: ステップ1。データをターゲットテーブルにコピーする