Übersicht der Features zum Laden von Daten

Unter diesem Thema wird ein kurzer Überblick über die unterstützten Features bei Verwendung des Befehls COPY INTO <Tabelle> gegeben, der dem Laden von Daten aus Dateien in Snowflake-Tabellen dient.

Unter diesem Thema:

Details zu Datendateien

In der folgenden Tabelle werden die allgemeinen Details für die zum Laden von Daten verwendeten Dateien beschrieben:

Feature

Unterstützt

Anmerkungen

Speicherort der Dateien

Lokale Umgebung

Dateien werden zuerst in einen internen (Snowflake-)Stagingbereich kopiert/bereitgestellt und dann in eine Tabelle geladen.

Amazon S3

Dateien können direkt aus jedem benutzerdefinierten Bucket geladen werden.

Google Cloud Storage

Dateien können direkt aus jedem benutzerdefinierten Bucket geladen werden.

Microsoft Azure-Cloudspeicher

  • Blob-Speicher

  • Data Lake Storage Gen2

  • General Purpose v1

  • General Purpose v2

Dateien können direkt aus jedem benutzerdefinierten Container geladen werden.

Dateiformate

Dateien mit Trennzeichen (CSV, TSV usw.)

Es werden alle gültigen Trennzeichen unterstützt. Der Standard ist Komma (d. h. CSV).

Semistrukturierte Formate

Unstructured formats

Dateicodierung

Dateiformatspezifisch

Bei Dateien mit Trennzeichen (CSV, TSV usw.) ist der Standardzeichensatz UTF-8. Um andere Zeichensätze zu verwenden, müssen Sie die zum Laden zu verwendende Codierung explizit angeben. Eine Liste der unterstützten Zeichensätze finden Sie unter Unterstützte Zeichensätze für Dateien mit Trennzeichen (unter diesem Thema).

Bei semistrukturierten Dateiformaten (JSON, Avro usw.) wird nur UTF-8 unterstützt.

Unterstützte Zeichensätze für Dateien mit Trennzeichen

In der folgenden Tabelle sind die Codierungszeichensätze aufgeführt, die zum Laden von Daten aus Dateien mit Trennzeichen (CSV, TSV usw.) unterstützt werden:

Zeichensatz 

ENCODING -Wert

Unterstützte Sprachen

Anmerkungen

Big5

BIG5

Traditionelles Chinesisch

EUC-JP

EUCJP

Japanisch

EUC-KR

EUCKR

Koreanisch

GB18030

GB18030

Chinesisch

IBM420

IBM420

Arabisch

IBM424

IBM424

Hebräisch

IBM949

IBM949

Koreanisch

ISO-2022-CN

ISO2022CN

Vereinfachtes Chinesisch

ISO-2022-JP

ISO2022JP

Japanisch

ISO-2022-KR

ISO2022KR

Koreanisch

ISO-8859-1

ISO88591

Dänisch, Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch

ISO-8859-2

ISO88592

Polnisch, Rumänisch, Tschechisch, Ungarisch

ISO-8859-5

ISO88595

Russisch

ISO-8859-6

ISO88596

Arabisch

ISO-8859-7

ISO88597

Griechisch

ISO-8859-8

ISO88598

Hebräisch

ISO-8859-9

ISO88599

Türkisch

ISO-8859-15

ISO885915

Dänisch, Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch

Identisch mit ISO-8859-1, bis auf 8 Zeichen, zu denen auch das Euro-Währungssymbol gehört.

KOI8-R

KOI8R

Russisch

Shift_JIS

SHIFTJIS

Japanisch

UTF-8

UTF8

Alle Sprachen

Zum Laden von Daten aus Dateien mit Trennzeichen (CSV, TSV usw.) ist UTF-8 die Standardeinstellung. . . Beim Laden von Daten aus allen anderen unterstützten Dateiformaten (JSON, Avro usw.) sowie zum Entladen von Daten ist UTF-8 der einzige unterstützte Zeichensatz.

UTF-16

UTF16

Alle Sprachen

UTF-16BE

UTF16BE

Alle Sprachen

UTF-16LE

UTF16LE

Alle Sprachen

UTF-32

UTF32

Alle Sprachen

UTF-32BE

UTF32BE

Alle Sprachen

UTF-32LE

UTF32LE

Alle Sprachen

windows-949

WINDOWS949

Koreanisch

windows-1250

WINDOWS1250

Polnisch, Rumänisch, Tschechisch, Ungarisch

windows-1251

WINDOWS1251

Russisch

windows-1252

WINDOWS1252

Dänisch, Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch

windows-1253

WINDOWS1253

Griechisch

windows-1254

WINDOWS1254

Türkisch

windows-1255

WINDOWS1255

Hebräisch

windows-1256

WINDOWS1256

Arabisch

Komprimierung von Stagingdateien

In der folgenden Tabelle wird beschrieben, wie Snowflake die Komprimierung von zu ladenden Datendateien handhabt. Die Optionen unterscheiden sich je nachdem, ob die Dateien unkomprimiert oder bereits komprimiert im Stagingbereich bereitgestellt werden:

Feature

Unterstützt

Anmerkungen

Unkomprimierte Dateien

gzip

Wenn unkomprimierte Dateien in einem Snowflake-Stagingbereich bereitgestellt werden, werden die Dateien automatisch mit gzip komprimiert, es sei denn, die Komprimierung ist explizit deaktiviert.

Bereits komprimierte Dateien

gzip

bzip2

deflate

raw_deflate

Snowflake kann jede dieser Komprimierungsmethoden automatisch erkennen, oder Sie können die Methode, die zum Komprimieren der Dateien verwendet wurde, explizit angeben.

Brotli

Zstandard

Die automatische Erkennung wird noch nicht für Brotli-komprimierte Dateien unterstützt. Beim Staging oder Laden von Brotli-komprimierten Dateien müssen Sie die verwendete Kompressionsmethode explizit angeben.

Verschlüsselung von Stagingdateien

In der folgenden Tabelle wird beschrieben, wie Snowflake die Verschlüsselung von Datendateien zum Laden handhabt. Die Optionen unterscheiden sich je nachdem, ob die Dateien unverschlüsselt oder bereits verschlüsselt bereitgestellt werden:

Feature

Unterstützt

Anmerkungen

Unverschlüsselte Dateien

128-Bit- oder 256-Bit-Schlüssel

Alle Dateien, die in internen Stagingbereichen zum Laden/Entladen von Daten gespeichert werden, werden serverseitig automatisch mit starker AES-256-Verschlüsselung verschlüsselt. Snowflake bietet standardmäßig eine zusätzliche clientseitige Verschlüsselung mit einem 128-Bit-Schlüssel (mit der Option, einen 256-Bit-Schlüssel zu konfigurieren).

Bereits verschlüsselte Dateien

Benutzerdefinierter Schlüssel

Bereits verschlüsselte Dateien können aus externem Cloudspeicher in Snowflake geladen werden. Der Schlüssel zur Verschlüsselung der Dateien muss Snowflake zur Verfügung gestellt werden.