Résumé des fonctions de chargement des données

Ce chapitre fournit une référence rapide des fonctions prises en charge pour l’utilisation de la commande COPY INTO <table> pour charger des données de fichiers dans des tables Snowflake.

Dans ce chapitre :

Détails du fichier de données

Le tableau suivant décrit les détails généraux des fichiers utilisés pour charger des données :

Fonctionnalité

Pris en charge

Remarques

Emplacement des fichiers

Environnement local

Les fichiers sont d’abord copiés (« en zone de préparation ») vers une zone de préparation interne (Snowflake), puis chargés dans une table.

Amazon S3

Les fichiers peuvent être chargés directement depuis un compartiment quelconque fourni par l’utilisateur.

Google Cloud Storage

Les fichiers peuvent être chargés directement depuis un compartiment quelconque fourni par l’utilisateur.

Stockage Cloud Microsoft Azure

  • Stockage d’objets blob

  • Data Lake Storage Gen2

  • Usage général v1

  • Usage général v2

Les fichiers peuvent être chargés directement depuis un conteneur quelconque fourni par l’utilisateur.

Formats de fichier

Fichiers délimités (CSV, TSV, etc.)

Tout délimiteur valide est pris en charge. La valeur par défaut est la virgule (c-à-d. CSV).

Format semi-structurées

Unstructured formats

Codage de fichier

Spécifique au format de fichier

Pour les fichiers délimités (CSV, TSV, etc.), le jeu de caractères par défaut est UTF-8. Pour utiliser d’autres jeux de caractères, vous devez spécifier explicitement le codage à utiliser pour le chargement. Pour obtenir la liste des jeux de caractères pris en charge, consultez Jeux de caractères pris en charge pour les fichiers délimités (dans cette rubrique).

Pour les formats de fichiers semi-structurés (JSON, Avro, etc.), le seul jeu de caractères pris en charge est UTF-8.

Jeux de caractères pris en charge pour les fichiers délimités

Le tableau suivant répertorie les jeux de caractères d’encodage pris en charge pour le chargement de données à partir de fichiers délimités (CSV, TSV, etc.) :

Jeu de caractères

Valeur ENCODING 

Langues acceptées

Remarques

Big5

BIG5

Chinois traditionnel

EUC-JP

EUCJP

Japonais

EUC-KR

EUCKR

Coréen

GB18030

GB18030

Chinois

IBM420

IBM420

Arabe

IBM424

IBM424

Hébreu

IBM949

IBM949

Coréen

ISO-2022-CN

ISO2022CN

Chinois simplifié

ISO-2022-JP

ISO2022JP

Japonais

ISO-2022-KR

ISO2022KR

Coréen

ISO-8859-1

ISO88591

Allemand, anglais, danois, français, italien, norvégien, néerlandais, portugais, suédois

ISO-8859-2

ISO88592

Tchèque, hongrois, polonais, roumain

ISO-8859-5

ISO88595

Russe

ISO-8859-6

ISO88596

Arabe

ISO-8859-7

ISO88597

Grec

ISO-8859-8

ISO88598

Hébreu

ISO-8859-9

ISO88599

Turc

ISO-8859-15

ISO885915

Allemand, anglais, danois, français, italien, norvégien, néerlandais, portugais, suédois

Identique à ISO-8859-1 à l’exception des 8 caractères, y compris le symbole monétaire Euro.

KOI8-R

KOI8R

Russe

Shift_JIS

SHIFTJIS

Japonais

UTF-8

UTF8

Toutes les langues

Pour charger des données à partir de fichiers délimités (CSV, TSV, etc.), UTF-8 est la valeur par défaut. . . Pour charger des données à partir de tous les autres formats de fichier pris en charge (JSON, Avro, etc.), ainsi que pour décharger des données, UTF-8 est le seul jeu de caractères pris en charge.

UTF-16

UTF16

Toutes les langues

UTF-16BE

UTF16BE

Toutes les langues

UTF-16LE

UTF16LE

Toutes les langues

UTF-32

UTF32

Toutes les langues

UTF-32BE

UTF32BE

Toutes les langues

UTF-32LE

UTF32LE

Toutes les langues

windows-949

WINDOWS949

Coréen

windows-1250

WINDOWS1250

Tchèque, hongrois, polonais, roumain

windows-1251

WINDOWS1251

Russe

windows-1252

WINDOWS1252

Allemand, anglais, danois, français, italien, norvégien, néerlandais, portugais, suédois

windows-1253

WINDOWS1253

Grec

windows-1254

WINDOWS1254

Turc

windows-1255

WINDOWS1255

Hébreu

windows-1256

WINDOWS1256

Arabe

Compression de fichiers en zone de préparation

Le tableau suivant décrit comment Snowflake gère la compression des fichiers de données pour le chargement. Les options diffèrent selon que les fichiers sont mis en zone de préparation en étant non compressés ou déjà compressés :

Fonctionnalité

Pris en charge

Remarques

Fichiers non compressés

gzip

Lors de la mise en zone de préaration de fichiers non compressés dans une zone de préparation Snowflake, les fichiers sont automatiquement compressés via gzip, à moins que la compression ne soit explicitement désactivée.

Fichiers déjà compressés

gzip

bzip2

deflate

raw_deflate

Snowflake peut automatiquement détecter l’une de ces méthodes de compression, ou vous pouvez indiquer explicitement la méthode utilisée pour compresser les fichiers.

Brotli

Zstandard

L’auto-détection n’est pas encore prise en charge pour les fichiers compressés Brotli ; lors de la mise en zone de préparation ou du chargement de fichiers compressés Brotli, vous devez spécifier explicitement la méthode de compression utilisée.

Chiffrement de fichiers en zone de préparation

Le tableau suivant décrit comment Snowflake gère le chiffrement des fichiers de données pour le chargement. Les options diffèrent selon que les fichiers sont stockés sans chiffrement ou déjà chiffrés :

Fonctionnalité

Pris en charge

Remarques

Fichiers non chiffrés

Clés 128 bits ou 256 bits

Tous les fichiers stockés sur des zones de préparation internes pour les opérations de chargement et de déchargement de données sont automatiquement chiffrés à l’aide d’un chiffrement fort AES-256 côté serveur. Par défaut, Snowflake fournit un chiffrement supplémentaire côté client avec une clé de 128 bits (avec la possibilité de configurer une clé de 256 bits).

Fichiers déjà chiffrés

Clé fournie par l’utilisateur

Les fichiers déjà chiffrés peuvent être chargés dans Snowflake à partir d’un stockage Cloud externe ; la clé utilisée pour chiffrer les fichiers doit être fournie à Snowflake.