Übersicht der Funktionen zum Laden von Daten

Unter diesem Thema wird ein kurzer Überblick über die unterstützten Funktionen bei Verwendung des Befehls COPY INTO <Tabelle> gegeben, der dem Laden von Daten aus Dateien in Snowflake-Tabellen dient.

Unter diesem Thema:

Details zu Datendateien

In der folgenden Tabelle werden die allgemeinen Details für die zum Laden von Daten verwendeten Dateien beschrieben:

Funktion

Unterstützt

Anmerkungen

Speicherort der Dateien

Lokale Umgebung

Dateien werden zunächst in einem Snowflake-Stagingbereich bereitgestellt und dann in eine Tabelle geladen.

Amazon S3

Dateien können direkt aus jedem benutzerdefinierten S3-Bucket geladen werden.

Google Cloud Storage

Dateien können direkt aus jedem benutzerdefinierten Cloud Storage-Container geladen werden.

Microsoft Azure

Dateien können direkt aus jedem benutzerdefinierten Azure-Container geladen werden.

Dateiformate

Dateien mit Trennzeichen (CSV, TSV usw.)

Es werden alle gültigen Trennzeichen unterstützt. Der Standard ist Komma (d. h. CSV).

JSON

Avro

Beinhaltet die automatische Erkennung und Verarbeitung von bereitgestellten Avro-Dateien, die mit Snappy komprimiert wurden.

ORC

Beinhaltet die automatische Erkennung und Verarbeitung von ORC-Stagingdateien, die mit Snappy oder zlib komprimiert wurden.

Parquet

Beinhaltet die automatische Erkennung und Verarbeitung von Parquet-Dateien, die mit Snappy komprimiert wurden.

XML

Unterstützt als Vorschaufunktion.

Dateicodierung

Dateiformatspezifisch

Bei Dateien mit Trennzeichen (CSV, TSV usw.) ist der Standardzeichensatz UTF-8. Um andere Zeichensätze zu verwenden, müssen Sie die zum Laden zu verwendende Codierung explizit angeben. Eine Liste der unterstützten Zeichensätze finden Sie unten.

Für alle anderen unterstützten Dateiformate (JSON, Avro usw.) ist der einzige unterstützte Zeichensatz UTF-8.

Unterstützte Zeichensätze für Dateien mit Trennzeichen

In der folgenden Tabelle sind die Codierungszeichensätze aufgeführt, die zum Laden von Daten aus Dateien mit Trennzeichen (CSV, TSV usw.) unterstützt werden:

Zeichensatz 

ENCODING -Wert

Unterstützte Sprachen

Anmerkungen

Big5

BIG5

Traditionelles Chinesisch

EUC-JP

EUCJP

Japanisch

EUC-KR

EUCKR

Koreanisch

GB18030

GB18030

Chinesisch

IBM420

IBM420

Arabisch

IBM424

IBM424

Hebräisch

ISO-2022-CN

ISO2022CN

Vereinfachtes Chinesisch

ISO-2022-JP

ISO2022JP

Japanisch

ISO-2022-KR

ISO2022KR

Koreanisch

ISO-8859-1

ISO88591

Dänisch, Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch

ISO-8859-2

ISO88592

Polnisch, Rumänisch, Tschechisch, Ungarisch

ISO-8859-5

ISO88595

Russisch

ISO-8859-6

ISO88596

Arabisch

ISO-8859-7

ISO88597

Griechisch

ISO-8859-8

ISO88598

Hebräisch

ISO-8859-9

ISO88599

Türkisch

KOI8-R

KOI8R

Russisch

Shift_JIS

SHIFTJIS

Japanisch

UTF-8

UTF8

Alle Sprachen

Zum Laden von Daten aus Dateien mit Trennzeichen (CSV, TSV usw.) ist UTF-8 die Standardeinstellung. . . Beim Laden von Daten aus allen anderen unterstützten Dateiformaten (JSON, Avro usw.) sowie zum Entladen von Daten ist UTF-8 der einzige unterstützte Zeichensatz.

UTF-16

UTF16

Alle Sprachen

UTF-16BE

UTF16BE

Alle Sprachen

UTF-16LE

UTF16LE

Alle Sprachen

UTF-32

UTF32

Alle Sprachen

UTF-32BE

UTF32BE

Alle Sprachen

UTF-32LE

UTF32LE

Alle Sprachen

windows-1250

WINDOWS1250

Polnisch, Rumänisch, Tschechisch, Ungarisch

windows-1251

WINDOWS1251

Russisch

windows-1252

WINDOWS1252

Dänisch, Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch

windows-1253

WINDOWS1253

Griechisch

windows-1254

WINDOWS1254

Türkisch

windows-1255

WINDOWS1255

Hebräisch

windows-1256

WINDOWS1256

Arabisch

Komprimierung von Stagingdateien

In der folgenden Tabelle wird beschrieben, wie Snowflake die Komprimierung von zu ladenden Datendateien handhabt. Die Optionen unterscheiden sich je nachdem, ob die Dateien unkomprimiert oder bereits komprimiert im Stagingbereich bereitgestellt werden:

Funktion

Unterstützt

Anmerkungen

Unkomprimierte Dateien

gzip

Wenn unkomprimierte Dateien in einem Snowflake-Stagingbereich bereitgestellt werden, werden die Dateien automatisch mit gzip komprimiert, es sei denn, die Komprimierung ist explizit deaktiviert.

Bereits komprimierte Dateien

gzip

bzip2

deflate

raw_deflate

Snowflake kann jede dieser Komprimierungsmethoden automatisch erkennen, oder Sie können die Methode, die zum Komprimieren der Dateien verwendet wurde, explizit angeben.

Brotli

Zstandard

Die automatische Erkennung wird bei diesen Methoden noch nicht unterstützt. Beim Staging oder Laden von Dateien, die mit einer dieser Methoden komprimiert wurden, muss die verwendete Komprimierungsmethode explizit angegeben werden.

Verschlüsselung von Staging-Dateien

In der folgenden Tabelle wird beschrieben, wie Snowflake die Verschlüsselung von Datendateien zum Laden handhabt. Die Optionen unterscheiden sich je nachdem, ob die Dateien unverschlüsselt oder bereits verschlüsselt bereitgestellt werden:

Funktion

Unterstützt

Anmerkungen

Unverschlüsselte Dateien

128-Bit- oder 256-Bit-Schlüssel

Wenn unverschlüsselte Staging-Dateien an einem internen Speicherort von Snowflake bereitgestellt werden, werden die Dateien automatisch mit 128-Bit-Schlüsseln verschlüsselt. 256-Bit-Schlüssel können aktiviert werden (für eine stärkere Verschlüsselung), es ist jedoch eine zusätzliche Konfiguration erforderlich.

Bereits verschlüsselte Dateien

Benutzerdefinierter Schlüssel

Bereits verschlüsselte Dateien können aus externem Cloudspeicher in Snowflake geladen werden. Der Schlüssel zur Verschlüsselung der Dateien muss Snowflake zur Verfügung gestellt werden.