Résumé des fonctions de chargement des données¶
Ce chapitre fournit une référence rapide des fonctions prises en charge pour l’utilisation de la commande COPY INTO <table> pour charger des données de fichiers dans des tables Snowflake.
Dans ce chapitre :
Détails du fichier de données¶
Le tableau suivant décrit les détails généraux des fichiers utilisés pour charger des données :
Fonctionnalité |
Pris en charge |
Remarques |
---|---|---|
Emplacement des fichiers |
Environnement local |
Les fichiers sont d’abord copiés (« en zone de préparation ») vers une zone de préparation interne (Snowflake), puis chargés dans une table. |
Amazon S3 |
Les fichiers peuvent être chargés directement depuis un compartiment quelconque fourni par l’utilisateur. |
|
Google Cloud Storage |
Les fichiers peuvent être chargés directement depuis un compartiment quelconque fourni par l’utilisateur. |
|
Stockage Cloud Microsoft Azure
|
Les fichiers peuvent être chargés directement depuis un conteneur quelconque fourni par l’utilisateur. |
|
Formats de fichier |
Fichiers délimités (CSV, TSV, etc.) |
Tout délimiteur valide est pris en charge. La valeur par défaut est la virgule (c-à-d. CSV). |
|
||
Codage de fichier |
Spécifique au format de fichier |
Pour les fichiers délimités (CSV, TSV, etc.), le jeu de caractères par défaut est UTF-8. Pour utiliser d’autres jeux de caractères, vous devez spécifier explicitement le codage à utiliser pour le chargement. Pour obtenir la liste des jeux de caractères pris en charge, consultez Jeux de caractères pris en charge pour les fichiers délimités (dans cette rubrique). |
Pour les formats de fichiers semi-structurés (JSON, Avro, etc.), le seul jeu de caractères pris en charge est UTF-8. |
Jeux de caractères pris en charge pour les fichiers délimités¶
Le tableau suivant répertorie les jeux de caractères d’encodage pris en charge pour le chargement de données à partir de fichiers délimités (CSV, TSV, etc.) :
Jeu de caractères |
Valeur |
Langues acceptées |
Remarques |
---|---|---|---|
Big5 |
|
Chinois traditionnel |
|
EUC-JP |
|
Japonais |
|
EUC-KR |
|
Coréen |
|
GB18030 |
|
Chinois |
|
IBM420 |
|
Arabe |
|
IBM424 |
|
Hébreu |
|
IBM949 |
|
Coréen |
|
ISO-2022-CN |
|
Chinois simplifié |
|
ISO-2022-JP |
|
Japonais |
|
ISO-2022-KR |
|
Coréen |
|
ISO-8859-1 |
|
Allemand, anglais, danois, français, italien, norvégien, néerlandais, portugais, suédois |
|
ISO-8859-2 |
|
Tchèque, hongrois, polonais, roumain |
|
ISO-8859-5 |
|
Russe |
|
ISO-8859-6 |
|
Arabe |
|
ISO-8859-7 |
|
Grec |
|
ISO-8859-8 |
|
Hébreu |
|
ISO-8859-9 |
|
Turc |
|
ISO-8859-15 |
|
Allemand, anglais, danois, français, italien, norvégien, néerlandais, portugais, suédois |
Identique à ISO-8859-1 à l’exception des 8 caractères, y compris le symbole monétaire Euro. |
KOI8-R |
|
Russe |
|
Shift_JIS |
|
Japonais |
|
UTF-8 |
|
Toutes les langues |
Pour charger des données à partir de fichiers délimités (CSV, TSV, etc.), UTF-8 est la valeur par défaut. . . Pour charger des données à partir de tous les autres formats de fichier pris en charge (JSON, Avro, etc.), ainsi que pour décharger des données, UTF-8 est le seul jeu de caractères pris en charge. |
UTF-16 |
|
Toutes les langues |
|
UTF-16BE |
|
Toutes les langues |
|
UTF-16LE |
|
Toutes les langues |
|
UTF-32 |
|
Toutes les langues |
|
UTF-32BE |
|
Toutes les langues |
|
UTF-32LE |
|
Toutes les langues |
|
windows-949 |
|
Coréen |
|
windows-1250 |
|
Tchèque, hongrois, polonais, roumain |
|
windows-1251 |
|
Russe |
|
windows-1252 |
|
Allemand, anglais, danois, français, italien, norvégien, néerlandais, portugais, suédois |
|
windows-1253 |
|
Grec |
|
windows-1254 |
|
Turc |
|
windows-1255 |
|
Hébreu |
|
windows-1256 |
|
Arabe |
Compression de fichiers en zone de préparation¶
Le tableau suivant décrit comment Snowflake gère la compression des fichiers de données pour le chargement. Les options diffèrent selon que les fichiers sont mis en zone de préparation en étant non compressés ou déjà compressés :
Fonctionnalité |
Pris en charge |
Remarques |
---|---|---|
Fichiers non compressés |
gzip |
Lors de la mise en zone de préaration de fichiers non compressés dans une zone de préparation Snowflake, les fichiers sont automatiquement compressés via gzip, à moins que la compression ne soit explicitement désactivée. |
Fichiers déjà compressés |
gzip bzip2 deflate raw_deflate |
Snowflake peut automatiquement détecter l’une de ces méthodes de compression, ou vous pouvez indiquer explicitement la méthode utilisée pour compresser les fichiers. |
Brotli Zstandard |
L’auto-détection n’est pas encore prise en charge pour les fichiers compressés Brotli ; lors de la mise en zone de préparation ou du chargement de fichiers compressés Brotli, vous devez spécifier explicitement la méthode de compression utilisée. |
Chiffrement de fichiers en zone de préparation¶
Le tableau suivant décrit comment Snowflake gère le chiffrement des fichiers de données pour le chargement. Les options diffèrent selon que les fichiers sont stockés sans chiffrement ou déjà chiffrés :
Fonctionnalité |
Pris en charge |
Remarques |
---|---|---|
Fichiers non chiffrés |
Clés 128 bits ou 256 bits |
Tous les fichiers stockés sur des zones de préparation internes pour les opérations de chargement et de déchargement de données sont automatiquement chiffrés à l’aide d’un chiffrement fort AES-256 côté serveur. Par défaut, Snowflake fournit un chiffrement supplémentaire côté client avec une clé de 128 bits (avec la possibilité de configurer une clé de 256 bits). |
Fichiers déjà chiffrés |
Clé fournie par l’utilisateur |
Les fichiers déjà chiffrés peuvent être chargés dans Snowflake à partir d’un stockage Cloud externe ; la clé utilisée pour chiffrer les fichiers doit être fournie à Snowflake. |