Übersicht der Funktionen zum Laden von Daten¶
Unter diesem Thema wird ein kurzer Überblick über die unterstützten Funktionen bei Verwendung des Befehls COPY INTO <Tabelle> gegeben, der dem Laden von Daten aus Dateien in Snowflake-Tabellen dient.
Unter diesem Thema:
Details zu Datendateien¶
In der folgenden Tabelle werden die allgemeinen Details für die zum Laden von Daten verwendeten Dateien beschrieben:
Funktion |
Unterstützt |
Anmerkungen |
---|---|---|
Speicherort der Dateien |
Lokale Umgebung |
Dateien werden zunächst in einem Snowflake-Stagingbereich bereitgestellt und dann in eine Tabelle geladen. |
Amazon S3 |
Dateien können direkt aus jedem benutzerdefinierten S3-Bucket geladen werden. |
|
Google Cloud Storage |
Dateien können direkt aus jedem benutzerdefinierten Cloud Storage-Container geladen werden. |
|
Microsoft Azure |
Dateien können direkt aus jedem benutzerdefinierten Azure-Container geladen werden. |
|
Dateiformate |
Dateien mit Trennzeichen (CSV, TSV usw.) |
Es werden alle gültigen Trennzeichen unterstützt. Der Standard ist Komma (d. h. CSV). |
JSON |
||
Avro |
Beinhaltet die automatische Erkennung und Verarbeitung von bereitgestellten Avro-Dateien, die mit Snappy komprimiert wurden. |
|
ORC |
Beinhaltet die automatische Erkennung und Verarbeitung von ORC-Stagingdateien, die mit Snappy oder zlib komprimiert wurden. |
|
Parquet |
Beinhaltet die automatische Erkennung und Verarbeitung von Parquet-Dateien, die mit Snappy komprimiert wurden. |
|
XML |
Unterstützt als Vorschaufunktion. |
|
Dateicodierung |
Dateiformatspezifisch |
Bei Dateien mit Trennzeichen (CSV, TSV usw.) ist der Standardzeichensatz UTF-8. Um andere Zeichensätze zu verwenden, müssen Sie die zum Laden zu verwendende Codierung explizit angeben. Eine Liste der unterstützten Zeichensätze finden Sie unten. |
Für alle anderen unterstützten Dateiformate (JSON, Avro usw.) ist der einzige unterstützte Zeichensatz UTF-8. |
Unterstützte Zeichensätze für Dateien mit Trennzeichen¶
In der folgenden Tabelle sind die Codierungszeichensätze aufgeführt, die zum Laden von Daten aus Dateien mit Trennzeichen (CSV, TSV usw.) unterstützt werden:
Zeichensatz |
|
Unterstützte Sprachen |
Anmerkungen |
---|---|---|---|
Big5 |
|
Traditionelles Chinesisch |
|
EUC-JP |
|
Japanisch |
|
EUC-KR |
|
Koreanisch |
|
GB18030 |
|
Chinesisch |
|
IBM420 |
|
Arabisch |
|
IBM424 |
|
Hebräisch |
|
ISO-2022-CN |
|
Vereinfachtes Chinesisch |
|
ISO-2022-JP |
|
Japanisch |
|
ISO-2022-KR |
|
Koreanisch |
|
ISO-8859-1 |
|
Dänisch, Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch |
|
ISO-8859-2 |
|
Polnisch, Rumänisch, Tschechisch, Ungarisch |
|
ISO-8859-5 |
|
Russisch |
|
ISO-8859-6 |
|
Arabisch |
|
ISO-8859-7 |
|
Griechisch |
|
ISO-8859-8 |
|
Hebräisch |
|
ISO-8859-9 |
|
Türkisch |
|
KOI8-R |
|
Russisch |
|
Shift_JIS |
|
Japanisch |
|
UTF-8 |
|
Alle Sprachen |
Zum Laden von Daten aus Dateien mit Trennzeichen (CSV, TSV usw.) ist UTF-8 die Standardeinstellung. . . Beim Laden von Daten aus allen anderen unterstützten Dateiformaten (JSON, Avro usw.) sowie zum Entladen von Daten ist UTF-8 der einzige unterstützte Zeichensatz. |
UTF-16 |
|
Alle Sprachen |
|
UTF-16BE |
|
Alle Sprachen |
|
UTF-16LE |
|
Alle Sprachen |
|
UTF-32 |
|
Alle Sprachen |
|
UTF-32BE |
|
Alle Sprachen |
|
UTF-32LE |
|
Alle Sprachen |
|
windows-1250 |
|
Polnisch, Rumänisch, Tschechisch, Ungarisch |
|
windows-1251 |
|
Russisch |
|
windows-1252 |
|
Dänisch, Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch |
|
windows-1253 |
|
Griechisch |
|
windows-1254 |
|
Türkisch |
|
windows-1255 |
|
Hebräisch |
|
windows-1256 |
|
Arabisch |
Komprimierung von Stagingdateien¶
In der folgenden Tabelle wird beschrieben, wie Snowflake die Komprimierung von zu ladenden Datendateien handhabt. Die Optionen unterscheiden sich je nachdem, ob die Dateien unkomprimiert oder bereits komprimiert im Stagingbereich bereitgestellt werden:
Funktion |
Unterstützt |
Anmerkungen |
---|---|---|
Unkomprimierte Dateien |
gzip |
Wenn unkomprimierte Dateien in einem Snowflake-Stagingbereich bereitgestellt werden, werden die Dateien automatisch mit gzip komprimiert, es sei denn, die Komprimierung ist explizit deaktiviert. |
Bereits komprimierte Dateien |
gzip bzip2 deflate raw_deflate |
Snowflake kann jede dieser Komprimierungsmethoden automatisch erkennen, oder Sie können die Methode, die zum Komprimieren der Dateien verwendet wurde, explizit angeben. |
Brotli Zstandard |
Die automatische Erkennung wird noch nicht für Brotli-komprimierte Dateien unterstützt. Beim Staging oder Laden von Brotli-komprimierten Dateien müssen Sie die verwendete Kompressionsmethode explizit angeben. |
Verschlüsselung von Stagingdateien¶
In der folgenden Tabelle wird beschrieben, wie Snowflake die Verschlüsselung von Datendateien zum Laden handhabt. Die Optionen unterscheiden sich je nachdem, ob die Dateien unverschlüsselt oder bereits verschlüsselt bereitgestellt werden:
Funktion |
Unterstützt |
Anmerkungen |
---|---|---|
Unverschlüsselte Dateien |
128-Bit- oder 256-Bit-Schlüssel |
Wenn unverschlüsselte Staging-Dateien an einem internen Speicherort von Snowflake bereitgestellt werden, werden die Dateien automatisch mit 128-Bit-Schlüsseln verschlüsselt. 256-Bit-Schlüssel können aktiviert werden (für eine stärkere Verschlüsselung), es ist jedoch eine zusätzliche Konfiguration erforderlich. |
Bereits verschlüsselte Dateien |
Benutzerdefinierter Schlüssel |
Bereits verschlüsselte Dateien können aus externem Cloudspeicher in Snowflake geladen werden. Der Schlüssel zur Verschlüsselung der Dateien muss Snowflake zur Verfügung gestellt werden. |