Résumé des fonctions de chargement des données¶
Ce chapitre fournit une référence rapide des fonctions prises en charge pour l’utilisation de la commande COPY INTO <table> pour charger des données de fichiers dans des tables Snowflake.
Dans ce chapitre :
Détails du fichier de données¶
Le tableau suivant décrit les détails généraux des fichiers utilisés pour charger des données :
Fonctionnalité |
Pris en charge |
Remarques |
---|---|---|
Emplacement des fichiers |
Environnement local |
Les fichiers sont d’abord mis dans une zone de préparation Snowflake, puis chargés dans une table. |
Amazon S3 |
Les fichiers peuvent être chargés directement depuis un compartiment S3 quelconque fourni par l’utilisateur. |
|
Google Cloud Storage |
Les fichiers peuvent être chargés directement depuis un conteneur Cloud Storage quelconque fourni par l’utilisateur. |
|
Microsoft Azure |
Les fichiers peuvent être chargés directement depuis un conteneur Azure quelconque fourni par l’utilisateur. |
|
Formats de fichier |
Fichiers délimités (CSV, TSV, etc.) |
Tout délimiteur valide est pris en charge. La valeur par défaut est la virgule (c-à-d. CSV). |
JSON |
||
Avro |
Inclut la détection et le traitement automatiques des fichiers Avro préparés et qui ont été compressés à l’aide de Snappy. |
|
ORC |
Inclut la détection et le traitement automatiques des fichiers ORC mis en zone de préparation et qui ont été compressés à l’aide de Snappy ou de zlib. |
|
Parquet |
Inclut la détection et le traitement automatiques des fichiers Parquet mis en zone de préparation et qui ont été compressés à l’aide de Snappy. |
|
XML |
Pris en charge en tant que fonctionnalité préliminaire. |
|
Encodage de fichier |
Spécifique au format de fichier |
Pour les fichiers délimités (CSV, TSV, etc.), le jeu de caractères par défaut est UTF-8. Pour utiliser d’autres jeux de caractères, vous devez spécifier explicitement le codage à utiliser pour le chargement. Pour la liste des jeux de caractères pris en charge, voir ci-dessous. |
Pour tous les autres formats de fichiers pris en charge (JSON, Avro, etc.), le seul jeu de caractères pris en charge est UTF-8. |
Jeux de caractères pris en charge (pour les fichiers de données délimités)¶
Le tableau suivant répertorie les jeux de caractères d’encodage pris en charge pour le chargement de données à partir de fichiers délimités (CSV, TSV, etc.) :
Jeu de caractères |
Valeur |
Langues acceptées |
Remarques |
---|---|---|---|
Big5 |
|
Chinois traditionnel |
|
EUC-JP |
|
Japonais |
|
EUC-KR |
|
Coréen |
|
GB18030 |
|
Chinois |
|
IBM420 |
|
Arabe |
|
IBM424 |
|
Hébreu |
|
ISO-2022-CN |
|
Chinois simplifié |
|
ISO-2022-JP |
|
Japonais |
|
ISO-2022-KR |
|
Coréen |
|
ISO-8859-1 |
|
Allemand, anglais, danois, français, italien, norvégien, néerlandais, portugais, suédois |
|
ISO-8859-2 |
|
Tchèque, hongrois, polonais, roumain |
|
ISO-8859-5 |
|
Russe |
|
ISO-8859-6 |
|
Arabe |
|
ISO-8859-7 |
|
Grec |
|
ISO-8859-8 |
|
Hébreu |
|
ISO-8859-9 |
|
Turc |
|
KOI8-R |
|
Russe |
|
Shift_JIS |
|
Japonais |
|
UTF-8 |
|
Toutes les langues |
Pour charger des données à partir de fichiers délimités (CSV, TSV, etc.), UTF-8 est la valeur par défaut. . . Pour charger des données à partir de tous les autres formats de fichier pris en charge (JSON, Avro, etc.), ainsi que pour décharger des données, UTF-8 est le seul jeu de caractères pris en charge. |
UTF-16 |
|
Toutes les langues |
|
UTF-16BE |
|
Toutes les langues |
|
UTF-16LE |
|
Toutes les langues |
|
UTF-32 |
|
Toutes les langues |
|
UTF-32BE |
|
Toutes les langues |
|
UTF-32LE |
|
Toutes les langues |
|
windows-1250 |
|
Tchèque, hongrois, polonais, roumain |
|
windows-1251 |
|
Russe |
|
windows-1252 |
|
Allemand, anglais, danois, français, italien, norvégien, néerlandais, portugais, suédois |
|
windows-1253 |
|
Grec |
|
windows-1254 |
|
Turc |
|
windows-1255 |
|
Hébreu |
|
windows-1256 |
|
Arabe |
Compression de fichiers préparés¶
Le tableau suivant décrit comment Snowflake gère la compression des fichiers de données pour le chargement. Les options diffèrent selon que les fichiers sont mis en zone de préparation en étant non compressés ou déjà compressés :
Fonctionnalité |
Pris en charge |
Remarques |
---|---|---|
Fichiers non compressés |
gzip |
Lors de la mise en zone de préaration de fichiers non compressés dans une zone de préparation Snowflake, les fichiers sont automatiquement compressés via gzip, à moins que la compression ne soit explicitement désactivée. |
Fichiers déjà compressés |
gzip bzip2 deflate raw_deflate |
Snowflake peut automatiquement détecter l’une de ces méthodes de compression, ou vous pouvez indiquer explicitement la méthode utilisée pour compresser les fichiers. |
Brotli Zstandard |
L’auto-détection n’est pas encore prise en charge pour les fichiers compressés Brotli ; lors de la mise en zone de préparation ou du chargement de fichiers compressés Brotli, vous devez spécifier explicitement la méthode de compression utilisée. |
Chiffrement de fichiers en zone de préparation¶
Le tableau suivant décrit comment Snowflake gère le chiffrement des fichiers de données pour le chargement. Les options diffèrent selon que les fichiers sont stockés sans chiffrement ou déjà chiffrés :
Fonctionnalité |
Pris en charge |
Remarques |
---|---|---|
Fichiers non chiffrés |
Clés 128 bits ou 256 bits |
Lors de l’échelonnement de fichiers non chiffrés dans un emplacement interne Snowflake, les fichiers sont automatiquement chiffrés à l’aide de clés 128 bits. Des clés 256 bits peuvent être activées (pour un chiffrement plus puissant), mais une configuration supplémentaire est nécessaire. |
Fichiers déjà chiffrés |
Clé fournie par l’utilisateur |
Les fichiers déjà chiffrés peuvent être chargés dans Snowflake à partir d’un stockage Cloud externe ; la clé utilisée pour chiffrer les fichiers doit être fournie à Snowflake. |