Résumé des fonctions de chargement des données

Ce chapitre fournit une référence rapide des fonctions prises en charge pour l’utilisation de la commande COPY INTO <table> pour charger des données de fichiers dans des tables Snowflake.

Dans ce chapitre :

Détails du fichier de données

Le tableau suivant décrit les détails généraux des fichiers utilisés pour charger des données :

Fonctionnalité

Pris en charge

Remarques

Emplacement des fichiers

Environnement local

Les fichiers sont d’abord mis dans une zone de préparation Snowflake, puis chargés dans une table.

Amazon S3

Les fichiers peuvent être chargés directement depuis un compartiment S3 quelconque fourni par l’utilisateur.

Google Cloud Storage

Les fichiers peuvent être chargés directement depuis un conteneur Cloud Storage quelconque fourni par l’utilisateur.

Microsoft Azure

Les fichiers peuvent être chargés directement depuis un conteneur Azure quelconque fourni par l’utilisateur.

Formats de fichier

Fichiers délimités (CSV, TSV, etc.)

Tout délimiteur valide est pris en charge. La valeur par défaut est la virgule (c-à-d. CSV).

JSON

Avro

Inclut la détection et le traitement automatiques des fichiers Avro préparés et qui ont été compressés à l’aide de Snappy.

ORC

Inclut la détection et le traitement automatiques des fichiers ORC mis en zone de préparation et qui ont été compressés à l’aide de Snappy ou de zlib.

Parquet

Inclut la détection et le traitement automatiques des fichiers Parquet mis en zone de préparation et qui ont été compressés à l’aide de Snappy.

XML

Pris en charge en tant que fonctionnalité préliminaire.

Encodage de fichier

Spécifique au format de fichier

Pour les fichiers délimités (CSV, TSV, etc.), le jeu de caractères par défaut est UTF-8. Pour utiliser d’autres jeux de caractères, vous devez spécifier explicitement le codage à utiliser pour le chargement. Pour la liste des jeux de caractères pris en charge, voir ci-dessous.

Pour tous les autres formats de fichiers pris en charge (JSON, Avro, etc.), le seul jeu de caractères pris en charge est UTF-8.

Jeux de caractères pris en charge (pour les fichiers de données délimités)

Le tableau suivant répertorie les jeux de caractères d’encodage pris en charge pour le chargement de données à partir de fichiers délimités (CSV, TSV, etc.) :

Jeu de caractères

Valeur ENCODING 

Langues acceptées

Remarques

Big5

BIG5

Chinois traditionnel

EUC-JP

EUCJP

Japonais

EUC-KR

EUCKR

Coréen

GB18030

GB18030

Chinois

IBM420

IBM420

Arabe

IBM424

IBM424

Hébreu

ISO-2022-CN

ISO2022CN

Chinois simplifié

ISO-2022-JP

ISO2022JP

Japonais

ISO-2022-KR

ISO2022KR

Coréen

ISO-8859-1

ISO88591

Allemand, anglais, danois, français, italien, norvégien, néerlandais, portugais, suédois

ISO-8859-2

ISO88592

Tchèque, hongrois, polonais, roumain

ISO-8859-5

ISO88595

Russe

ISO-8859-6

ISO88596

Arabe

ISO-8859-7

ISO88597

Grec

ISO-8859-8

ISO88598

Hébreu

ISO-8859-9

ISO88599

Turc

KOI8-R

KOI8R

Russe

Shift_JIS

SHIFTJIS

Japonais

UTF-8

UTF8

Toutes les langues

Pour charger des données à partir de fichiers délimités (CSV, TSV, etc.), UTF-8 est la valeur par défaut. . . Pour charger des données à partir de tous les autres formats de fichier pris en charge (JSON, Avro, etc.), ainsi que pour décharger des données, UTF-8 est le seul jeu de caractères pris en charge.

UTF-16

UTF16

Toutes les langues

UTF-16BE

UTF16BE

Toutes les langues

UTF-16LE

UTF16LE

Toutes les langues

UTF-32

UTF32

Toutes les langues

UTF-32BE

UTF32BE

Toutes les langues

UTF-32LE

UTF32LE

Toutes les langues

windows-1250

WINDOWS1250

Tchèque, hongrois, polonais, roumain

windows-1251

WINDOWS1251

Russe

windows-1252

WINDOWS1252

Allemand, anglais, danois, français, italien, norvégien, néerlandais, portugais, suédois

windows-1253

WINDOWS1253

Grec

windows-1254

WINDOWS1254

Turc

windows-1255

WINDOWS1255

Hébreu

windows-1256

WINDOWS1256

Arabe

Compression de fichiers préparés

Le tableau suivant décrit comment Snowflake gère la compression des fichiers de données pour le chargement. Les options diffèrent selon que les fichiers sont mis en zone de préparation en étant non compressés ou déjà compressés :

Fonctionnalité

Pris en charge

Remarques

Fichiers non compressés

gzip

Lors de la mise en zone de préaration de fichiers non compressés dans une zone de préparation Snowflake, les fichiers sont automatiquement compressés via gzip, à moins que la compression ne soit explicitement désactivée.

Fichiers déjà compressés

gzip

bzip2

deflate

raw_deflate

Snowflake peut automatiquement détecter l’une de ces méthodes de compression, ou vous pouvez indiquer explicitement la méthode utilisée pour compresser les fichiers.

Brotli

Zstandard

L’auto-détection n’est pas encore prise en charge pour ces méthodes. Lors de la mise en zone de préparation ou du chargement de fichiers compressés avec l’une de ces méthodes, la méthode de compression utilisée doit être explicitement indiquée.

Chiffrement de fichiers préparés

Le tableau suivant décrit comment Snowflake gère le chiffrement des fichiers de données pour le chargement. Les options diffèrent selon que les fichiers sont stockés sans chiffrement ou déjà chiffrés :

Fonctionnalité

Pris en charge

Remarques

Fichiers non chiffrés

Clés 128 bits ou 256 bits

Lors de l’échelonnement de fichiers non chiffrés dans un emplacement interne Snowflake, les fichiers sont automatiquement chiffrés à l’aide de clés 128 bits. Des clés 256 bits peuvent être activées (pour un chiffrement plus puissant), mais une configuration supplémentaire est nécessaire.

Fichiers déjà chiffrés

Clé fournie par l’utilisateur

Les fichiers déjà chiffrés peuvent être chargés dans Snowflake à partir d’un stockage Cloud externe ; la clé utilisée pour chiffrer les fichiers doit être fournie à Snowflake.