JSON データパーティション分割¶
論理的で詳細なパスを使用して、S3バケット内のイベントデータをパーティション分割することが重要です。イベントデータがS3バケットに書き込まれた日付とともに、アプリケーションや場所などの詳細を識別することを含むパーティション構造を作成します。その後、1つのコマンドで、分割されたデータの一部をSnowflakeにコピーできます。最初にテーブルにデータを入力する時間、日、月、さらには年単位でデータをSnowflakeにコピーできます。
例:
s3://バケット名/アプリケーションワン/2016/07/01/11/
s3://バケット名/アプリケーションツー/場所ワン/2016/07/01/14/
条件:
バケット名
データへのアクセスに使用される一意のS3 URI 。
アプリケーションワン
、アプリケーションツー
、場所ワン
など。パス内にあるすべてのデータのソースの詳細を識別します。データは、書き込まれた日付ごとに整理できます。オプションの24時間ディレクトリは、各ディレクトリのデータ量を減らします。
注釈
S3は、Snowflakeが使用する COPY ステートメントごとにディレクトリリストを送信するため、各ディレクトリ内のファイル数を減らすと、 COPY ステートメントのパフォーマンスが向上します。1時間ごとに10~15分単位のフォルダーを作成することも検討できます。