Partitionnement de données JSON

Il est important de partitionner les données d’événement dans votre compartiment S3 en utilisant des chemins logiques et granulaires. Créez une structure de partitionnement qui comprend des détails d’identification, tels que l’application ou l’emplacement, ainsi que la date à laquelle les données de l’événement ont été écrites dans le compartiment S3. Vous pouvez ensuite copier toute fraction des données partitionnées dans Snowflake à l’aide d’une seule commande. Vous pouvez copier les données dans Snowflake par heure, jour, mois ou même année lorsque vous remplissez initialement les tables.

Par exemple :

s3://nom_compartiment/application_une/2016/07/01/11/

s3://nom_compartiment/application_deux/emplacement_un/2016/07/01/14/

Où :

nom_compartiment

L’unique S3 URI utilisé pour accéder à vos données.

application_une , application_deux , emplacement_un , etc.

Identifier les détails de la source de toutes les données dans le chemin. Les données peuvent être organisées en fonction de la date à laquelle elles ont été écrites. Un répertoire optionnel de 24 heures réduit la quantité de données dans chaque répertoire.

Note

S3 transmet une liste de répertoires avec chaque instruction COPY utilisée par Snowflake. Par conséquent, réduire le nombre de fichiers dans chaque répertoire améliore la performance de vos instructions COPY. Vous pouvez même envisager de créer des dossiers par incréments de 10 à 15 minutes par heure.

Suivant : Étape 1. Copie de données dans la table cible