Übersicht der Features zum Laden von Daten¶
Unter diesem Thema wird ein kurzer Überblick über die unterstützten Features bei Verwendung des Befehls COPY INTO <Tabelle> gegeben, der dem Laden von Daten aus Dateien in Snowflake-Tabellen dient.
Unter diesem Thema:
Details zu Datendateien¶
In der folgenden Tabelle werden die allgemeinen Details für die zum Laden von Daten verwendeten Dateien beschrieben:
Feature |
Unterstützt |
Anmerkungen |
---|---|---|
Speicherort der Dateien |
Lokale Umgebung |
Dateien werden zuerst in einen internen (Snowflake-)Stagingbereich kopiert/bereitgestellt und dann in eine Tabelle geladen. |
Amazon S3 |
Dateien können direkt aus jedem benutzerdefinierten Bucket geladen werden. |
|
Google Cloud Storage |
Dateien können direkt aus jedem benutzerdefinierten Bucket geladen werden. |
|
Microsoft Azure-Cloudspeicher
|
Dateien können direkt aus jedem benutzerdefinierten Container geladen werden. |
|
Dateiformate |
Dateien mit Trennzeichen (CSV, TSV usw.) |
Es werden alle gültigen Trennzeichen unterstützt. Der Standard ist Komma (d. h. CSV). |
|
||
Dateicodierung |
Dateiformatspezifisch |
Bei Dateien mit Trennzeichen (CSV, TSV usw.) ist der Standardzeichensatz UTF-8. Um andere Zeichensätze zu verwenden, müssen Sie die zum Laden zu verwendende Codierung explizit angeben. Eine Liste der unterstützten Zeichensätze finden Sie unter Unterstützte Zeichensätze für Dateien mit Trennzeichen (unter diesem Thema). |
Bei semistrukturierten Dateiformaten (JSON, Avro usw.) wird nur UTF-8 unterstützt. |
Unterstützte Zeichensätze für Dateien mit Trennzeichen¶
In der folgenden Tabelle sind die Codierungszeichensätze aufgeführt, die zum Laden von Daten aus Dateien mit Trennzeichen (CSV, TSV usw.) unterstützt werden:
Zeichensatz |
|
Unterstützte Sprachen |
Anmerkungen |
---|---|---|---|
Big5 |
|
Traditionelles Chinesisch |
|
EUC-JP |
|
Japanisch |
|
EUC-KR |
|
Koreanisch |
|
GB18030 |
|
Chinesisch |
|
IBM420 |
|
Arabisch |
|
IBM424 |
|
Hebräisch |
|
IBM949 |
|
Koreanisch |
|
ISO-2022-CN |
|
Vereinfachtes Chinesisch |
|
ISO-2022-JP |
|
Japanisch |
|
ISO-2022-KR |
|
Koreanisch |
|
ISO-8859-1 |
|
Dänisch, Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch |
|
ISO-8859-2 |
|
Polnisch, Rumänisch, Tschechisch, Ungarisch |
|
ISO-8859-5 |
|
Russisch |
|
ISO-8859-6 |
|
Arabisch |
|
ISO-8859-7 |
|
Griechisch |
|
ISO-8859-8 |
|
Hebräisch |
|
ISO-8859-9 |
|
Türkisch |
|
ISO-8859-15 |
|
Dänisch, Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch |
Identisch mit ISO-8859-1, bis auf 8 Zeichen, zu denen auch das Euro-Währungssymbol gehört. |
KOI8-R |
|
Russisch |
|
Shift_JIS |
|
Japanisch |
|
UTF-8 |
|
Alle Sprachen |
Zum Laden von Daten aus Dateien mit Trennzeichen (CSV, TSV usw.) ist UTF-8 die Standardeinstellung. . . Beim Laden von Daten aus allen anderen unterstützten Dateiformaten (JSON, Avro usw.) sowie zum Entladen von Daten ist UTF-8 der einzige unterstützte Zeichensatz. |
UTF-16 |
|
Alle Sprachen |
|
UTF-16BE |
|
Alle Sprachen |
|
UTF-16LE |
|
Alle Sprachen |
|
UTF-32 |
|
Alle Sprachen |
|
UTF-32BE |
|
Alle Sprachen |
|
UTF-32LE |
|
Alle Sprachen |
|
windows-949 |
|
Koreanisch |
|
windows-1250 |
|
Polnisch, Rumänisch, Tschechisch, Ungarisch |
|
windows-1251 |
|
Russisch |
|
windows-1252 |
|
Dänisch, Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch |
|
windows-1253 |
|
Griechisch |
|
windows-1254 |
|
Türkisch |
|
windows-1255 |
|
Hebräisch |
|
windows-1256 |
|
Arabisch |
Komprimierung von Stagingdateien¶
In der folgenden Tabelle wird beschrieben, wie Snowflake die Komprimierung von zu ladenden Datendateien handhabt. Die Optionen unterscheiden sich je nachdem, ob die Dateien unkomprimiert oder bereits komprimiert im Stagingbereich bereitgestellt werden:
Feature |
Unterstützt |
Anmerkungen |
---|---|---|
Unkomprimierte Dateien |
gzip |
Wenn unkomprimierte Dateien in einem Snowflake-Stagingbereich bereitgestellt werden, werden die Dateien automatisch mit gzip komprimiert, es sei denn, die Komprimierung ist explizit deaktiviert. |
Bereits komprimierte Dateien |
gzip bzip2 deflate raw_deflate |
Snowflake kann jede dieser Komprimierungsmethoden automatisch erkennen, oder Sie können die Methode, die zum Komprimieren der Dateien verwendet wurde, explizit angeben. |
Brotli Zstandard |
Die automatische Erkennung wird noch nicht für Brotli-komprimierte Dateien unterstützt. Beim Staging oder Laden von Brotli-komprimierten Dateien müssen Sie die verwendete Kompressionsmethode explizit angeben. |
Verschlüsselung von Stagingdateien¶
In der folgenden Tabelle wird beschrieben, wie Snowflake die Verschlüsselung von Datendateien zum Laden handhabt. Die Optionen unterscheiden sich je nachdem, ob die Dateien unverschlüsselt oder bereits verschlüsselt bereitgestellt werden:
Feature |
Unterstützt |
Anmerkungen |
---|---|---|
Unverschlüsselte Dateien |
128-Bit- oder 256-Bit-Schlüssel |
Alle Dateien, die in internen Stagingbereichen zum Laden/Entladen von Daten gespeichert werden, werden serverseitig automatisch mit starker AES-256-Verschlüsselung verschlüsselt. Snowflake bietet standardmäßig eine zusätzliche clientseitige Verschlüsselung mit einem 128-Bit-Schlüssel (mit der Option, einen 256-Bit-Schlüssel zu konfigurieren). |
Bereits verschlüsselte Dateien |
Benutzerdefinierter Schlüssel |
Bereits verschlüsselte Dateien können aus externem Cloudspeicher in Snowflake geladen werden. Der Schlüssel zur Verschlüsselung der Dateien muss Snowflake zur Verfügung gestellt werden. |