Chargement en masse à partir de Microsoft Azure¶
Si vous avez déjà un compte Microsoft Azure et que vous utilisez des conteneurs de stockage Blob Azure pour stocker et gérer vos fichiers de données, vous pouvez utiliser vos conteneurs et chemins de dossiers existants pour charger les données dans Snowflake.
Cet ensemble de chapitres décrit comment utiliser la commande COPY pour charger des données à partir d’un conteneur Azure dans des tables.
Snowflake prend actuellement en charge le chargement à partir du stockage d’objets blob uniquement. Snowflake prend en charge les types de comptes de stockage suivants :
Stockage d’objets blob
Data Lake Storage Gen2
Usage général v1
Usage général v2
Snowflake ne prend pas en charge Data Lake Storage Gen1.
Note
Le chargement à partir de blobs de bloc, d’ajout et de page est pris en charge. Les fichiers déchargés sont créés sous forme de blocs blobs. Pour plus d’informations sur ces types de blobs, voir la documentation Azure sur les types de blob.
Si un espace de noms hiérarchique est activé sur Data Lake Storage Gen2, Snowflake ne prend pas en charge la purge de fichiers avec la commande COPY. Un espace de noms hiérarchique organise les données en répertoires et sous-répertoires. Azure ne permet de supprimer que des répertoires vides, ce qui signifie que vous ne pouvez pas supprimer de répertoires de manière récursive via l’option PURGE avec la commande COPY.
Comme l’illustre le schéma ci-dessous, le chargement des données d’un conteneur Azure s’effectue en deux étapes :
- Étape 1:
Snowflake suppose que les fichiers de données ont déjà été préparés dans un conteneur Azure. Si ce n’est pas encore le cas, utilisez les interfaces/utilitaires de chargement fournis par Microsoft pour préparer les fichiers.
- Étape 2:
Utilisez la commande COPY INTO <table> pour charger le contenu du ou des fichiers préparés dans une table de base de données Snowflake. Vous pouvez charger des fichiers directement à partir du compartiment, mais Snowflake recommande de créer une zone de préparation externe qui référence le compartiment et d’utiliser plutôt la zone de préparation externe.
Quelle que soit la méthode que vous utilisez, cette étape nécessite l’exécution d’un entrepôt virtuel en cours d’exécution pour la session si vous exécutez la commande manuellement ou dans un script. L’entrepôt fournit les ressources de calcul pour effectuer l’insertion réelle des lignes dans la table.
Astuce
Les instructions de cet ensemble de chapitres supposent que vous avez lu Préparation au chargement de données et que vous avez créé un format de fichier nommé, le cas échéant.
Avant de commencer, vous pouvez également lire Considérations relatives au chargement de données pour connaître les bonnes pratiques, les conseils et autres instructions.
Chapitres suivants :
Tâches de configuration (à compléter au besoin) :
Tâches de chargement des données (à compléter pour chaque ensemble de fichiers que vous chargez) :