Kategorien:

DDL zum Laden/Entladen von Daten

CREATE FILE FORMAT

Erstellt ein benanntes Dateiformat, das ein Set von Stagingbereichsdaten beschreibt, auf die zugegriffen oder die in Snowflake-Tabellen geladen werden soll.

Siehe auch:

ALTER FILE FORMAT, SHOW FILE FORMATS

COPY INTO <Speicherort>, COPY INTO <Tabelle>

Unter diesem Thema:

Syntax

CREATE [ OR REPLACE ] FILE FORMAT [ IF NOT EXISTS ] <name>
                      TYPE = { CSV | JSON | AVRO | ORC | PARQUET | XML } [ formatTypeOptions ]
                      [ COMMENT = '<string_literal>' ]

Wobei:

formatTypeOptions ::=
-- If TYPE = CSV
     COMPRESSION = AUTO | GZIP | BZ2 | BROTLI | ZSTD | DEFLATE | RAW_DEFLATE | NONE
     RECORD_DELIMITER = '<character>' | NONE
     FIELD_DELIMITER = '<character>' | NONE
     FILE_EXTENSION = '<string>'
     SKIP_HEADER = <integer>
     SKIP_BLANK_LINES = TRUE | FALSE
     DATE_FORMAT = '<string>' | AUTO
     TIME_FORMAT = '<string>' | AUTO
     TIMESTAMP_FORMAT = '<string>' | AUTO
     BINARY_FORMAT = HEX | BASE64 | UTF8
     ESCAPE = '<character>' | NONE
     ESCAPE_UNENCLOSED_FIELD = '<character>' | NONE
     TRIM_SPACE = TRUE | FALSE
     FIELD_OPTIONALLY_ENCLOSED_BY = '<character>' | NONE
     NULL_IF = ( '<string>' [ , '<string>' ... ] )
     ERROR_ON_COLUMN_COUNT_MISMATCH = TRUE | FALSE
     REPLACE_INVALID_CHARACTERS = TRUE | FALSE
     VALIDATE_UTF8 = TRUE | FALSE
     EMPTY_FIELD_AS_NULL = TRUE | FALSE
     SKIP_BYTE_ORDER_MARK = TRUE | FALSE
     ENCODING = '<string>' | UTF8
-- If TYPE = JSON
     COMPRESSION = AUTO | GZIP | BZ2 | BROTLI | ZSTD | DEFLATE | RAW_DEFLATE | NONE
     DATE_FORMAT = '<string>' | AUTO
     TIME_FORMAT = '<string>' | AUTO
     TIMESTAMP_FORMAT = '<string>' | AUTO
     BINARY_FORMAT = HEX | BASE64 | UTF8
     TRIM_SPACE = TRUE | FALSE
     NULL_IF = ( '<string>' [ , '<string>' ... ] )
     FILE_EXTENSION = '<string>'
     ENABLE_OCTAL = TRUE | FALSE
     ALLOW_DUPLICATE = TRUE | FALSE
     STRIP_OUTER_ARRAY = TRUE | FALSE
     STRIP_NULL_VALUES = TRUE | FALSE
     IGNORE_UTF8_ERRORS = TRUE | FALSE
     SKIP_BYTE_ORDER_MARK = TRUE | FALSE
-- If TYPE = AVRO
     COMPRESSION = AUTO | GZIP | BZ2 | BROTLI | ZSTD | DEFLATE | RAW_DEFLATE | NONE
     TRIM_SPACE = TRUE | FALSE
     NULL_IF = ( '<string>' [ , '<string>' ... ] )
-- If TYPE = ORC
     TRIM_SPACE = TRUE | FALSE
     NULL_IF = ( '<string>' [ , '<string>' ... ] )
-- If TYPE = PARQUET
     COMPRESSION = AUTO | LZO | SNAPPY | NONE
     SNAPPY_COMPRESSION = TRUE | FALSE
     BINARY_AS_TEXT = TRUE | FALSE
     TRIM_SPACE = TRUE | FALSE
     NULL_IF = ( '<string>' [ , '<string>' ... ] )
-- If TYPE = XML
     COMPRESSION = AUTO | GZIP | BZ2 | BROTLI | ZSTD | DEFLATE | RAW_DEFLATE | NONE
     IGNORE_UTF8_ERRORS = TRUE | FALSE
     PRESERVE_SPACE = TRUE | FALSE
     STRIP_OUTER_ELEMENT = TRUE | FALSE
     DISABLE_SNOWFLAKE_DATA = TRUE | FALSE
     DISABLE_AUTO_CONVERT = TRUE | FALSE
     SKIP_BYTE_ORDER_MARK = TRUE | FALSE
     TRIM_SPACE = TRUE | FALSE
     NULL_IF = ( '<string>' [ , '<string>' ... ] )

Erforderliche Parameter

Name

Gibt den Bezeichner für das Dateiformat an. Dieser muss für das Schema, in dem das Dateiformat erstellt wird, eindeutig sein.

Der Bezeichnerwert muss mit einem alphabetischen Zeichen beginnen und darf keine Leerzeichen oder Sonderzeichen enthalten, es sei denn, die gesamte Bezeichnerzeichenfolge wird in doppelte Anführungszeichen eingeschlossen (z. B. "My object"). Bei Bezeichnern, die in doppelte Anführungszeichen eingeschlossen sind, ist auch die Groß- und Kleinschreibung zu beachten.

Weitere Details dazu finden Sie unter Anforderungen an Bezeichner.

TYPE = CSV | JSON | AVRO | ORC | PARQUET | XML [ ... ]

Gibt das Format der Eingabedateien (zum Laden von Daten) oder der Ausgabedateien (zum Entladen von Daten) an. Je nach Formattyp können weitere formatspezifische Optionen angegeben werden. Weitere Informationen dazu finden Sie unter Formattypoptionen (unter diesem Thema).

Gültige Werte hängen davon ab, ob das Dateiformat zum Laden oder Entladen von Daten verwendet wird:

CSV (zum Laden und Entladen)

Jede Nur-Text-Datei (oder Flatfile), die bestimmte Zeichen verwendet als:

  • Trennzeichen für Felder innerhalb von Datensätzen (z. B. Kommas).

  • Trennzeichen für Datensätze (z. B. neue Zeilenzeichen).

Obwohl der Name CSV kommagetrennte Werte vorschlägt, kann jedes gültige Zeichen als Feldtrennzeichen verwendet werden.

JSON (zum Laden und Entladen)

Jede Nur-Text-Datei, die aus einem oder mehreren JSON-Dokumenten (Objekte, Arrays usw.) besteht. JSON ist ein semistrukturiertes Dateiformat. Die Dokumente können durch Komma getrennt (und optional in einem großen Array eingeschlossen) werden. Ein einzelnes JSON-Dokument kann mehrere Zeilen umfassen.

Anmerkung:

  • Beim Laden von Daten aus Dateien in Tabellen unterstützt Snowflake entweder das Standardformat NDJSON („Newline Delimited JSON“) oder das durch Komma getrennte JSON-Format.

  • Beim Entladen von Tabellendaten in Dateien bietet Snowflake nur die Ausgabe in das NDJSON-Format.

AVRO (nur zum Laden; Daten können nicht in das AVRO-Format entladen werden)

Binärdatei im AVRO-Format.

ORC (nur zum Laden; Daten können nicht in das ORC-Format entladen werden)

Binärdatei im ORC-Format.

PARQUET (zum Laden und Entladen)

Binärdatei im PARQUET-Format.

XML (nur zum Laden; Daten können nicht aus Tabellen im XML-Format entladen werden)

Nur-Text-Datei mit XML-Elementen.

Weitere Details zu CSV finden Sie unter Nutzungshinweise unter diesem Thema. Weitere Informationen zu JSON und den anderen semistrukturierten Dateiformaten finden Sie unter Einführung in semistrukturierte Daten.

Optionale Parameter

COMMENT = 'Zeichenfolgenliteral'

Gibt einen Kommentar für das Dateiformat an.

Standard: Kein Wert

Formattypoptionen (formatTypeOptions)

Je nach angegebenem Dateiformattyp (TYPE = ...) können Sie eine oder mehrere der folgenden formatspezifischen Optionen (durch Leerzeichen, Kommas oder Neue-Zeile-Zeichen getrennt) einschließen:

TYPE = CSV

COMPRESSION = AUTO | GZIP | BZ2 | BROTLI | ZSTD | DEFLATE | RAW_DEFLATE | NONE
Verwendung

Laden und Entladen von Daten

Definition
  • Beim Laden von Daten wird der aktuelle Komprimierungsalgorithmus für die Datendatei angegeben. Snowflake verwendet diese Option, um zu erkennen, wie eine bereits komprimierte Datendatei komprimiert wurde, sodass die komprimierten Daten in der Datei zum Laden extrahiert werden können.

  • Beim Entladen von Daten wird die Datendatei mit dem angegebenen Komprimierungsalgorithmus komprimiert.

Werte

Unterstützte Werte

Anmerkungen

AUTO

Beim Laden von Daten wird der Komprimierungsalgorithmus automatisch erkannt, mit Ausnahme von Brotli-komprimierten Dateien, die derzeit nicht automatisch erkannt werden können. Beim Entladen von Daten werden Dateien automatisch mit der Standardmethode gzip komprimiert.

GZIP

BZ2

BROTLI

Muss beim Laden/Entladen von Brotli-komprimierten Dateien angegeben werden.

ZSTD

Zstandard v0.8 (und höher) wird unterstützt.

DEFLATE

Deflate-komprimierte Dateien (mit zlib-Header, RFC1950).

RAW_DEFLATE

Raw Deflate-komprimierte Dateien (ohne Header, RFC1951).

NONE

Zeigt beim Laden von Daten an, dass die Dateien nicht komprimiert wurden. Zeigt beim Entladen von Daten an, dass die entladenen Dateien nicht komprimiert werden.

Standard

AUTO

RECORD_DELIMITER = 'Zeichen' | NONE
Verwendung

Laden und Entladen von Daten

Definition

Ein oder mehrere Einzelbyte- oder Multibyte-Zeichen, die Datensätze in einer Eingabedatei (Laden von Daten) oder einer entladenen Datei (Entladen von Daten) voneinander trennen.

Akzeptiert gängige Escape-Sequenzen, Oktalwerte (mit \\ vorangestellt) oder Hex-Werte (mit 0x vorangestellt). Geben Sie beispielsweise für Datensätze, die durch das Thornzeichen (Þ) getrennt sind, den Oktalwert (\\336) oder den Hexadezimalwert (0xDE) an. Akzeptiert auch den Wert NONE.

Das angegebene Trennzeichen muss ein gültiges UTF-8-Zeichen sein und darf keine zufällige Folge von Bytes sein.

Trennzeichen mit mehreren Zeichen werden ebenfalls unterstützt. Das Trennzeichen für RECORD_DELIMITER oder FIELD_DELIMITER darf jedoch keine Teilzeichenfolge des Trennzeichens der anderen Dateiformatoption sein (z. B. FIELD_DELIMITER = 'aa' RECORD_DELIMITER = 'aabb'). Das Trennzeichen darf maximal 20 Zeichen lang sein. Geben Sie keine Zeichen an, die für andere Dateiformatoptionen wie ESCAPE oder ESCAPE_UNENCLOSED_FIELD verwendet werden.

Standard
Laden von Daten

Zeichen für „Neue Zeile“. Beachten Sie, dass „neue Zeile“ logisch ist, sodass \r\n als neue Zeile für Dateien auf einer Windows-Plattform verstanden wird.

Entladen von Daten

Neue-Zeile-Zeichen (\n).

FIELD_DELIMITER = 'Zeichen' | NONE
Verwendung

Laden und Entladen von Daten

Definition

Ein oder mehrere Einzelbyte- oder Multibyte-Zeichen, die Felder in einer Eingabedatei (Laden von Daten) oder einer entladenen Datei (Entladen von Daten) voneinander trennen.

Akzeptiert gängige Escape-Sequenzen, Oktalwerte (mit \\ vorangestellt) oder Hex-Werte (mit 0x vorangestellt). Geben Sie beispielsweise für Felder, die durch das Thornzeichen (Þ) getrennt sind, den Oktalwert (\\336) oder den Hexadezimalwert (0xDE) an. Akzeptiert auch den Wert NONE.

Das angegebene Trennzeichen muss ein gültiges UTF-8-Zeichen sein und darf keine zufällige Folge von Bytes sein.

Trennzeichen mit mehreren Zeichen werden ebenfalls unterstützt. Das Trennzeichen für RECORD_DELIMITER oder FIELD_DELIMITER darf jedoch keine Teilzeichenfolge des Trennzeichens der anderen Dateiformatoption sein (z. B. FIELD_DELIMITER = 'aa' RECORD_DELIMITER = 'aabb'). Das Trennzeichen darf maximal 20 Zeichen lang sein. Geben Sie keine Zeichen an, die für andere Dateiformatoptionen wie ESCAPE oder ESCAPE_UNENCLOSED_FIELD verwendet werden.

Standard

Komma (,)

FILE_EXTENSION = 'Zeichenfolge' | NONE
Verwendung

Nur Entladen von Daten

Definition

Gibt die Erweiterung für Dateien an, die in einen Stagingbereich entladen werden. Akzeptiert jede Erweiterung. Der Benutzer ist dafür verantwortlich, eine Dateiendung anzugeben, die von jeder gewünschten Software oder dem gewünschten Service gelesen werden kann.

Standard

Null, d. h. die Dateierweiterung wird durch den Formattyp bestimmt, z. B. .csv[Komprimierung], wobei Komprimierung die durch die Komprimierungsmethode hinzugefügte Erweiterung ist, wenn COMPRESSION festgelegt ist.

Bemerkung

Wenn die SINGLE-Kopieroption den Wert TRUE hat, wird mit dem Befehl COPY standardmäßig eine Datei ohne Dateiendung entladen. Um eine Dateierweiterung anzugeben, geben Sie einen Dateinamen und eine Erweiterung im Pfad interner_Speicherplatz oder externer_Speicherplatz an (z. B. copy into @stage/data.csv).

SKIP_HEADER = Ganzzahl
Verwendung

Nur Laden von Daten

Definition

Anzahl der Zeilen am Anfang der zu überspringenden Datei.

Beachten Sie, dass SKIP_HEADER nicht die Werte RECORD_DELIMITER oder FIELD_DELIMITER verwendet, um zu bestimmen, was eine Kopfzeile ist. Stattdessen wird einfach die angegebene Anzahl von CRLF (Wagenrücklauf, Zeilenvorschub)-begrenzten Zeilen in der Datei übersprungen. RECORD_DELIMITER und FIELD_DELIMITER werden dann verwendet, um die zu ladenden Datenzeilen zu bestimmen.

Standard

0

SKIP_BLANK_LINES = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der angibt, ob Leerzeilen in den Datendateien übersprungen werden sollen oder ob sie zu einem Datensatzende-Fehler (Standardverhalten) führen.

Standard: FALSE

DATE_FORMAT = 'Zeichenfolge' | AUTO
Verwendung

Laden und Entladen von Daten

Definition

Definiert das Format der Datumswerte in den Datendateien (Laden von Daten) oder der Tabelle (Entladen von Daten). Wenn ein Wert nicht angegeben ist oder AUTO ist, wird der Wert für den Parameter DATE_INPUT_FORMAT (Datenladen) oder DATE_OUTPUT_FORMAT (Datenentladen) verwendet.

Standard

AUTO

TIME_FORMAT = 'Zeichenfolge' | AUTO
Verwendung

Laden und Entladen von Daten

Definition

Definiert das Format der Zeitwerte in den Datendateien (Laden von Daten) oder der Tabelle (Entladen von Daten). Wenn ein Wert nicht angegeben ist oder AUTO ist, wird der Wert für den Parameter TIME_INPUT_FORMAT (Datenladen) oder TIME_OUTPUT_FORMAT (Datenentladen) verwendet.

Standard

AUTO

TIMESTAMP_FORMAT = Zeichenfolge' | AUTO
Verwendung

Laden und Entladen von Daten

Definition

Definiert das Format der Zeitstempelwerte in den Datendateien (Laden von Daten) oder der Tabelle (Entladen von Daten). Wenn ein Wert nicht angegeben ist oder AUTO ist, wird der Wert für den Parameter TIMESTAMP_INPUT_FORMAT (Datenladen) oder TIMESTAMP_OUTPUT_FORMAT (Datenentladen) verwendet.

Standard

AUTO

BINARY_FORMAT = HEX | BASE64 | UTF8
Verwendung

Laden und Entladen von Daten

Definition

Definiert das Codierungsformat für die Binäreingabe oder -ausgabe. Die Option kann beim Laden von Daten in oder Entladen von Daten aus binären Spalten einer Tabelle verwendet werden.

Standard

HEX

ESCAPE = 'Zeichen' | NONE
Verwendung

Laden und Entladen von Daten

Definition

Zeichenfolge mit einem einzelnen Zeichen, das als Escapezeichen für Feldwerte verwendet wird. Ein Escapezeichen ruft eine alternative Interpretation für nachfolgende Zeichen in einer Zeichenfolge auf. Sie können das ESCAPE-Zeichen verwenden, um Instanzen von FIELD_DELIMITER-, RECORD_DELIMITER- oder FIELD_OPTIONALLY_ENCLOSED_BY-Zeichen in den Daten als Literale zu interpretieren. Das Escapezeichen kann auch verwendet werden, um Instanzen von sich selbst in den Daten in Escapezeichen einzuschließen.

Akzeptiert gängige Escapesequenzen, Oktalwerte oder Hexadezimalwerte.

  • Gibt beim Laden von Daten das Escapezeichen für eingeschlossene Felder an. Geben Sie das Zeichen an, das zum Einschließen von Feldern verwendet wird, indem Sie FIELD_OPTIONALLY_ENCLOSED_BY festlegen.

  • Wenn diese Option beim Entladen von Daten gesetzt ist, überschreibt sie den Escape-Zeichensatz für ESCAPE_UNENCLOSED_FIELD.

Standard

NONE

ESCAPE_UNENCLOSED_FIELD = 'Zeichen' | NONE
Verwendung

Laden und Entladen von Daten

Definition

Zeichenfolge mit einem einzelnen Zeichen, das als Escapezeichen nur für nicht eingeschlossene Feldwerte verwendet wird. Ein Escapezeichen ruft eine alternative Interpretation für nachfolgende Zeichen in einer Zeichenfolge auf. Sie können das ESCAPE-Zeichen verwenden, um Instanzen von FIELD_DELIMITER- oder RECORD_DELIMITER-Zeichen in den Daten als Literale zu interpretieren. Das Escapezeichen kann auch verwendet werden, um Instanzen von sich selbst in den Daten in Escapezeichen einzuschließen.

Akzeptiert gängige Escapesequenzen, Oktalwerte oder Hexadezimalwerte.

Hinweis: Wenn ESCAPE beim Entladen von Daten gesetzt ist, wird diese Option vom Escapezeichensatz der Dateiformatoption überschrieben.

Standard

Backslash (\\)

TRIM_SPACE = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der angibt, ob Leerzeichen aus Feldern entfernt werden sollen.

Wenn Ihre externe Datenbanksoftware beispielsweise Felder in Anführungszeichen setzt, aber ein führendes Leerzeichen einfügt, liest Snowflake das führende Leerzeichen und nicht das öffnende Anführungszeichen als Anfang des Feldes (d. h. die Anführungszeichen werden als Teil der Zeichenfolge von Felddaten interpretiert). Setzen Sie diese Option auf TRUE, um unerwünschte Leerzeichen während des Datenladevorgangs zu entfernen.

Weiteres Beispiel: Wenn Zeichenfolgen von Anführungszeichen umschlossen sind und die Anführungszeichen von führenden oder nachstehende Leerzeichen, können Sie die umgebenden Leerzeichen mit dieser Option entfernen und die Anführungszeichen mit der Option FIELD_OPTIONALLY_ENCLOSED_BY. Beachten Sie, dass alle innerhalb der Anführungszeichen befindlichen Leerzeichen erhalten bleiben. Zum Beispiel bei FIELD_DELIMITER = '|' und FIELD_OPTIONALLY_ENCLOSED_BY = '"':

|"Hello world"|    /* loads as */  >Hello world<
|" Hello world "|  /* loads as */  > Hello world <
| "Hello world" |  /* loads as */  >Hello world<

(die Klammern in diesem Beispiel werden nicht geladen; sie dienen dazu, den Anfang und das Ende der geladenen Zeichenfolgen zu markieren).

Standard

FALSE

FIELD_OPTIONALLY_ENCLOSED_BY = 'Zeichen' | NONE
Verwendung

Laden und Entladen von Daten

Definition

Zeichen, das verwendet wird, um Zeichenfolgen einzuschließen. Der Wert kann NONE, ein einfaches Anführungszeichen (') oder ein doppeltes Anführungszeichen (") sein. Um das einfache Anführungszeichen verwenden zu können, müssen Sie die oktale oder hexadezimale Darstellung (0x27) oder das doppelte einfache Anführungszeichen als Escape-Zeichen ('') verwenden.

Wenn ein Feld dieses Zeichen enthält, können Sie es mit dem gleichen Zeichen löschen. Wenn der Wert beispielsweise das doppelte Anführungszeichen ist und ein Feld die Zeichenfolge A "B" C enthält, schließen Sie die doppelten Anführungszeichen in Escapezeichen ein:

A ""B"" C

Standard

NONE

NULL_IF = ( 'Zeichenfolge1' [ , 'Zeichenfolge2' , ... ] )
Verwendung

Laden und Entladen von Daten

Definition

Zeichenfolge, die zum Konvertieren in und von SQL NULL verwendet wird:

  • Beim Laden von Daten ersetzt Snowflake diese Zeichenfolgen in der Datenladequelle durch SQL NULL. Um mehr als eine Zeichenfolge anzugeben, schließen Sie die Liste der Zeichenfolgen in Klammern ein und trennen Sie jeden Wert durch Kommas.

    Beispiel:

    NULL_IF = ('\\N', 'NULL', 'NUL', '')

    Beachten Sie, dass diese Option leere Zeichenfolgen enthalten kann.

  • Beim Entladen von Daten konvertiert Snowflake SQL-NULL-Werte in den ersten Wert der Liste.

Standard

\\N (d. h. NULL mit der Annahme, dass der ESCAPE_UNENCLOSED_FIELD-Wert \\ ist)

ERROR_ON_COLUMN_COUNT_MISMATCH = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der angibt, ob ein Parsing-Fehler generiert werden soll, wenn die Anzahl der durch Trennzeichen begrenzten Spalten (d. h. Felder) in einer Eingabedatei nicht mit der Anzahl der Spalten in der entsprechenden Tabelle übereinstimmt.

Wenn auf FALSE gesetzt, wird kein Fehler erzeugt und die Last wird fortgesetzt. Wenn die Datei erfolgreich geladen wurde:

  • Wenn die Eingabedatei Datensätze mit mehr Feldern als Spalten in der Tabelle enthält, werden die übereinstimmenden Felder in der Reihenfolge ihres Auftretens in der Datei und die restlichen Felder nicht geladen.

  • Wenn die Eingabedatei Datensätze mit weniger Feldern als Spalten in der Tabelle enthält, werden die nicht übereinstimmenden Spalten in der Tabelle mit NULL-Werten geladen.

Diese Option geht davon aus, dass alle Datensätze innerhalb der Eingabedatei die gleiche Länge haben (d. h. eine Datei mit Datensätzen unterschiedlicher Länge gibt unabhängig vom für diesen Parameter angegebenen Wert einen Fehler zurück).

Standard

TRUE

Bemerkung

Bei der Transformation von Daten während des Ladevorgangs (d. h. Verwendung einer Abfrage als Quelle für den Befehl COPY), wird diese Option ignoriert. Es ist nicht erforderlich, dass die Datendateien die gleiche Anzahl und Reihenfolge der Spalten aufweisen wie die Zieltabelle.

REPLACE_INVALID_CHARACTERS = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der angibt, ob ungültige UTF-8-Zeichen durch das Unicode-Ersetzungszeichen ersetzt werden sollen ().

Bei Einstellung auf TRUE ersetzt Snowflake ungültige UTF-8-Zeichen durch das Unicode-Ersetzungszeichen.

Bei Einstellung auf FALSE gibt die Ladeoperation einen Fehler aus, wenn eine ungültige UTF-8-Zeichencodierung erkannt wird.

Standard

FALSE

VALIDATE_UTF8 = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der angibt, ob die UTF-8-Zeichencodierung in Zeichenfolgenspaltendaten überprüft werden soll.

Wenn auf TRUE gesetzt, validiert Snowflake die UTF-8-Zeichencodierung in Zeichenfolgenspaltendaten. Wenn eine ungültige UTF-8-Zeichencodierung erkannt wird, führt der COPY-Befehl zu einem Fehler.

Standard

TRUE

Wichtig

Diese Option wird nur bereitgestellt, um Abwärtskompatibilität mit früheren Versionen von Snowflake sicherzustellen. Sie sollten diese Option nicht deaktivieren, es sei denn, Sie werden vom Snowflake-Support angewiesen.

EMPTY_FIELD_AS_NULL = TRUE | FALSE
Verwendung

Laden und Entladen von Daten

Definition
  • Gibt beim Laden von Daten an, ob für leere Felder einer Eingabedatei, die durch zwei aufeinanderfolgende Trennzeichen (z. B. ,,) repräsentiert werden, SQL NULL eingefügt werden soll.

    Wenn der Wert FALSE ist, versucht Snowflake, einem leeren Feld den entsprechenden Spaltentyp zuzuweisen. In Spalten vom Typ STRING wird eine leere Zeichenfolge eingefügt. Für andere Spaltentypen generiert der COPY-Befehl einen Fehler.

  • Beim Entladen von Daten wird diese Option in Kombination mit FIELD_OPTIONALLY_ENCLOSED_BY verwendet. Wenn FIELD_OPTIONALLY_ENCLOSED_BY = NONE festgelegt ist, werden bei EMPTY_FIELD_AS_NULL = FALSE leere Zeichenfolgen in Tabellen entladen, um leere Zeichenfolgenwerte zu erhalten, ohne dass die Feldwerte in Anführungszeichen eingeschlossen werden.

    Wenn TRUE festgelegt wird, muss FIELD_OPTIONALLY_ENCLOSED_BY ein Zeichen angeben, das zum Umschließen von Zeichenfolgen verwendet wird.

Standard

TRUE

SKIP_BYTE_ORDER_MARK = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der angibt, ob die BOM (Bytereihenfolge-Marke) übersprungen werden soll, wenn sie in einer Datendatei vorhanden ist. Eine BOM ist ein Zeichencode am Anfang einer Datendatei, der die Bytefolge und die Codierungsform definiert.

Wenn auf FALSE gesetzt, erkennt Snowflake alle BOM in Datendateien, was dazu führen kann, dass die BOM entweder einen Fehler verursacht oder in der ersten Spalte der Tabelle zusammengeführt wird.

Standard

TRUE

ENCODING = 'Zeichenfolge'
Verwendung

Nur Laden von Daten

Definition

Zeichenfolge (Konstante), die den Zeichensatz der Quelldaten beim Laden von Daten in eine Tabelle angibt.

Zeichensatz 

ENCODING -Wert

Unterstützte Sprachen

Anmerkungen

Big5

BIG5

Traditionelles Chinesisch

EUC-JP

EUCJP

Japanisch

EUC-KR

EUCKR

Koreanisch

GB18030

GB18030

Chinesisch

IBM420

IBM420

Arabisch

IBM424

IBM424

Hebräisch

ISO-2022-CN

ISO2022CN

Vereinfachtes Chinesisch

ISO-2022-JP

ISO2022JP

Japanisch

ISO-2022-KR

ISO2022KR

Koreanisch

ISO-8859-1

ISO88591

Dänisch, Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch

ISO-8859-2

ISO88592

Polnisch, Rumänisch, Tschechisch, Ungarisch

ISO-8859-5

ISO88595

Russisch

ISO-8859-6

ISO88596

Arabisch

ISO-8859-7

ISO88597

Griechisch

ISO-8859-8

ISO88598

Hebräisch

ISO-8859-9

ISO88599

Türkisch

KOI8-R

KOI8R

Russisch

Shift_JIS

SHIFTJIS

Japanisch

UTF-8

UTF8

Alle Sprachen

Zum Laden von Daten aus Dateien mit Trennzeichen (CSV, TSV usw.) ist UTF-8 die Standardeinstellung. . . Beim Laden von Daten aus allen anderen unterstützten Dateiformaten (JSON, Avro usw.) sowie zum Entladen von Daten ist UTF-8 der einzige unterstützte Zeichensatz.

UTF-16

UTF16

Alle Sprachen

UTF-16BE

UTF16BE

Alle Sprachen

UTF-16LE

UTF16LE

Alle Sprachen

UTF-32

UTF32

Alle Sprachen

UTF-32BE

UTF32BE

Alle Sprachen

UTF-32LE

UTF32LE

Alle Sprachen

windows-1250

WINDOWS1250

Polnisch, Rumänisch, Tschechisch, Ungarisch

windows-1251

WINDOWS1251

Russisch

windows-1252

WINDOWS1252

Dänisch, Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch

windows-1253

WINDOWS1253

Griechisch

windows-1254

WINDOWS1254

Türkisch

windows-1255

WINDOWS1255

Hebräisch

windows-1256

WINDOWS1256

Arabisch

Standard

UTF8

Bemerkung

Snowflake speichert alle Daten intern im UTF-8-Zeichensatz. Die Daten werden in UTF-8 umgewandelt, bevor sie in Snowflake geladen werden. Wenn die Dateiformatoption VALIDATE_UTF8 den Wert TRUE hat, validiert Snowflake die UTF-8-Zeichencodierung in den Zeichenfolgenspaltendaten, nachdem sie von ihrer ursprünglichen Zeichencodierung konvertiert wurde.

TYPE = JSON

COMPRESSION = AUTO | GZIP | BZ2 | BROTLI | ZSTD | DEFLATE | RAW_DEFLATE | NONE
Verwendung

Laden und Entladen von Daten

Definition
  • Beim Laden von Daten wird der aktuelle Komprimierungsalgorithmus für die Datendatei angegeben. Snowflake verwendet diese Option, um zu erkennen, wie eine bereits komprimierte Datendatei komprimiert wurde, sodass die komprimierten Daten in der Datei zum Laden extrahiert werden können.

  • Beim Entladen von Daten wird die Datendatei mit dem angegebenen Komprimierungsalgorithmus komprimiert.

Werte

Unterstützte Werte

Anmerkungen

AUTO

Beim Laden von Daten wird der Komprimierungsalgorithmus automatisch erkannt, mit Ausnahme von Brotli-komprimierten Dateien, die derzeit nicht automatisch erkannt werden können. Beim Entladen von Daten werden Dateien automatisch mit der Standardmethode gzip komprimiert.

GZIP

BZ2

BROTLI

Muss beim Laden/Entladen von Brotli-komprimierten Dateien angegeben werden.

ZSTD

Zstandard v0.8 (und höher) wird unterstützt.

DEFLATE

Deflate-komprimierte Dateien (mit zlib-Header, RFC1950).

RAW_DEFLATE

Raw Deflate-komprimierte Dateien (ohne Header, RFC1951).

NONE

Zeigt beim Laden von Daten an, dass die Dateien nicht komprimiert wurden. Zeigt beim Entladen von Daten an, dass die entladenen Dateien nicht komprimiert werden.

Standard

AUTO

DATE_FORMAT = 'Zeichenfolge' | AUTO
Verwendung

Nur Laden von Daten

Definition

Wird nur angewendet, wenn JSON-Daten in separate Spalten geladen werden (d. h. mithilfe der Kopieroption MATCH_BY_COLUMN_NAME oder einer COPY-Transformation). Definiert das Format der Datumszeichenfolgewerte in den Datendateien. Wenn ein Wert nicht angegeben oder AUTO ist, wird der Wert des Parameters DATE_INPUT_FORMAT verwendet.

Diese Dateiformatoption ist derzeit eine Vorschaufunktion.

Standard

AUTO

TIME_FORMAT = 'Zeichenfolge' | AUTO
Verwendung

Nur Laden von Daten

Definition

Wird nur angewendet, wenn JSON-Daten in separate Spalten geladen werden (z. B. mithilfe der Kopieroption MATCH_BY_COLUMN_NAME oder einer COPY-Transformation). Definiert das Format der Uhrzeit-Zeichenfolgewerte in den Datendateien. Wenn ein Wert nicht angegeben oder AUTO ist, wird der Wert des Parameters TIME_INPUT_FORMAT verwendet.

Diese Dateiformatoption ist derzeit eine Vorschaufunktion.

Standard

AUTO

TIMESTAMP_FORMAT = Zeichenfolge' | AUTO
Verwendung

Nur Laden von Daten

Definition

Wird nur angewendet, wenn JSON-Daten in separate Spalten geladen werden (z. B. mithilfe der Kopieroption MATCH_BY_COLUMN_NAME oder einer COPY-Transformation). Definiert das Format der Zeitstempel-Zeichenfolgewerte in den Datendateien. Wenn ein Wert nicht angegeben oder AUTO ist, wird der Wert des Parameters TIMESTAMP_INPUT_FORMAT verwendet.

Diese Dateiformatoption ist derzeit eine Vorschaufunktion.

Standard

AUTO

BINARY_FORMAT = HEX | BASE64 | UTF8
Verwendung

Nur Laden von Daten

Definition

Wird nur angewendet, wenn JSON-Daten in separate Spalten geladen werden (d. h. mithilfe der Kopieroption MATCH_BY_COLUMN_NAME oder einer COPY-Transformation). Definiert das Codierungsformat für Binärzeichenfolgewerte in den Datendateien. Die Option kann beim Laden von Daten in binäre Spalten einer Tabelle verwendet werden.

Diese Dateiformatoption ist derzeit eine Vorschaufunktion.

Standard

HEX

TRIM_SPACE = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Wird nur angewendet, wenn JSON-Daten in separate Spalten geladen werden (z. B. mithilfe der Kopieroption MATCH_BY_COLUMN_NAME oder einer COPY-Transformation). Boolescher Wert, der angibt, ob führende und nachstehende Leerzeichen aus Zeichenfolgen entfernt werden sollen.

Wenn Ihre externe Datenbanksoftware beispielsweise Felder in Anführungszeichen setzt, aber ein führendes Leerzeichen einfügt, liest Snowflake das führende Leerzeichen und nicht das öffnende Anführungszeichen als Anfang des Feldes (d. h. die Anführungszeichen werden als Teil der Zeichenfolge von Felddaten interpretiert). Setzen Sie diese Option auf TRUE, um unerwünschte Leerzeichen während des Datenladevorgangs zu entfernen.

Diese Dateiformatoption ist derzeit eine Vorschaufunktion.

Standard

FALSE

NULL_IF = ( 'Zeichenfolge1' [ , 'Zeichenfolge2' , ... ] )
Verwendung

Nur Laden von Daten

Definition

Wird nur angewendet, wenn JSON-Daten in separate Spalten geladen werden (z. B. mithilfe der Kopieroption MATCH_BY_COLUMN_NAME oder einer COPY-Transformation). Zeichenfolge, die zum Konvertieren in/aus SQL NULL verwendet wird. Snowflake ersetzt diese Zeichenfolgen in der Datenladequelle durch SQL NULL. Um mehr als eine Zeichenfolge anzugeben, schließen Sie die Liste der Zeichenfolgen in Klammern ein und trennen Sie jeden Wert durch Kommas.

Beispiel:

NULL_IF = ('\\N', 'NULL', 'NUL', '')

Beachten Sie, dass diese Option leere Zeichenfolgen enthalten kann.

Diese Dateiformatoption ist derzeit eine Vorschaufunktion.

Standard

\\N (d. h. NULL mit der Annahme, dass der ESCAPE_UNENCLOSED_FIELD-Wert \\ ist)

FILE_EXTENSION = 'Zeichenfolge' | NONE
Verwendung

Nur Entladen von Daten

Definition

Gibt die Erweiterung für Dateien an, die in einen Stagingbereich entladen werden. Akzeptiert jede Erweiterung. Der Benutzer ist dafür verantwortlich, eine Dateiendung anzugeben, die von jeder gewünschten Software oder dem gewünschten Service gelesen werden kann.

Standard

Null, d. h. die Dateierweiterung wird durch den Formattyp bestimmt, z. B. .json[Komprimierung], wobei Komprimierung die durch die Komprimierungsmethode hinzugefügte Erweiterung ist, wenn COMPRESSION festgelegt ist.

ENABLE_OCTAL = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der das Parsen von Oktalzahlen ermöglicht.

Standard

FALSE

ALLOW_DUPLICATE = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der angibt, dass doppelte Objektfeldnamen erlaubt sind (nur der letzte wird beibehalten).

Standard

FALSE

STRIP_OUTER_ARRAY = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der den JSON-Parser anweist, die äußeren Klammern zu entfernen (z. B. [ ]).

Standard

FALSE

STRIP_NULL_VALUES = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der den JSON-Parser anweist, Objektfelder oder Array-Elemente mit null-Werten zu entfernen. Zum Beispiel, wenn auf TRUE gesetzt:

Vorher

Nachher

[null]

[]

[null,null,3]

[,,3]

{"a":null,"b":null,"c":123}

{"c":123}

{"a":[1,null,2],"b":{"x":null,"y":88}}

{"a":[1,,2],"b":{"y":88}}

Standard

FALSE

IGNORE_UTF8_ERRORS = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der angibt, ob UTF-8-Codierungsfehler Fehlerbedingungen erzeugen. Wenn auf TRUE gesetzt, werden alle ungültigen UTF-8-Sequenzen stillschweigend durch Unicodezeichen U+FFFD (d. h. „Ersatzzeichen“) ersetzt.

Standard

FALSE

SKIP_BYTE_ORDER_MARK = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der angibt, ob die BOM (Bytereihenfolge-Marke) übersprungen werden soll, wenn sie in einer Datendatei vorhanden ist. Eine BOM ist ein Zeichencode am Anfang einer Datendatei, der die Bytefolge und die Codierungsform definiert.

Wenn auf FALSE gesetzt, erkennt Snowflake alle BOM in Datendateien, was dazu führen kann, dass die BOM entweder einen Fehler verursacht oder in der ersten Spalte der Tabelle zusammengeführt wird.

Standard

TRUE

TYPE = AVRO

COMPRESSION = AUTO | GZIP | BZ2 | BROTLI | ZSTD | DEFLATE | RAW_DEFLATE | NONE
Verwendung

Laden und Entladen von Daten

Definition
  • Beim Laden von Daten wird der aktuelle Komprimierungsalgorithmus für die Datendatei angegeben. Snowflake verwendet diese Option, um zu erkennen, wie eine bereits komprimierte Datendatei komprimiert wurde, sodass die komprimierten Daten in der Datei zum Laden extrahiert werden können.

  • Beim Entladen von Daten wird die Datendatei mit dem angegebenen Komprimierungsalgorithmus komprimiert.

Werte

Unterstützte Werte

Anmerkungen

AUTO

Beim Laden von Daten wird der Komprimierungsalgorithmus automatisch erkannt, mit Ausnahme von Brotli-komprimierten Dateien, die derzeit nicht automatisch erkannt werden können. Beim Entladen von Daten werden Dateien automatisch mit der Standardmethode gzip komprimiert.

GZIP

BZ2

BROTLI

Muss beim Laden/Entladen von Brotli-komprimierten Dateien angegeben werden.

ZSTD

Zstandard v0.8 (und höher) wird unterstützt.

DEFLATE

Deflate-komprimierte Dateien (mit zlib-Header, RFC1950).

RAW_DEFLATE

Raw Deflate-komprimierte Dateien (ohne Header, RFC1951).

NONE

Zeigt beim Laden von Daten an, dass die Dateien nicht komprimiert wurden. Zeigt beim Entladen von Daten an, dass die entladenen Dateien nicht komprimiert werden.

Standard

AUTO

TRIM_SPACE = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Wird nur angewendet, wenn Avro-Daten in separate Spalten geladen werden (z. B. mithilfe der Kopieroption MATCH_BY_COLUMN_NAME oder einer COPY-Transformation). Boolescher Wert, der angibt, ob führende und nachstehende Leerzeichen aus Zeichenfolgen entfernt werden sollen.

Wenn Ihre externe Datenbanksoftware beispielsweise Felder in Anführungszeichen setzt, aber ein führendes Leerzeichen einfügt, liest Snowflake das führende Leerzeichen und nicht das öffnende Anführungszeichen als Anfang des Feldes (d. h. die Anführungszeichen werden als Teil der Zeichenfolge von Felddaten interpretiert). Setzen Sie diese Option auf TRUE, um unerwünschte Leerzeichen während des Datenladevorgangs zu entfernen.

Diese Dateiformatoption ist derzeit eine Vorschaufunktion.

Standard

FALSE

NULL_IF = ( 'Zeichenfolge1' [ , 'Zeichenfolge2' , ... ] )
Verwendung

Nur Laden von Daten

Definition

Wird nur angewendet, wenn Avro-Daten in separate Spalten geladen werden (z. B. mithilfe der Kopieroption MATCH_BY_COLUMN_NAME oder einer COPY-Transformation). Zeichenfolge, die zum Konvertieren in/aus SQL NULL verwendet wird. Snowflake ersetzt diese Zeichenfolgen in der Datenladequelle durch SQL NULL. Um mehr als eine Zeichenfolge anzugeben, schließen Sie die Liste der Zeichenfolgen in Klammern ein und trennen Sie jeden Wert durch Kommas.

Beispiel:

NULL_IF = ('\\N', 'NULL', 'NUL', '')

Beachten Sie, dass diese Option leere Zeichenfolgen enthalten kann.

Diese Dateiformatoption ist derzeit eine Vorschaufunktion.

Standard

\\N (d. h. NULL mit der Annahme, dass der ESCAPE_UNENCLOSED_FIELD-Wert \\ ist)

TYPE = ORC

TRIM_SPACE = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Wird nur angewendet, wenn ORC-Daten in separate Spalten geladen werden (z. B. mithilfe der Kopieroption MATCH_BY_COLUMN_NAME oder einer COPY-Transformation). Boolescher Wert, der angibt, ob führende und nachstehende Leerzeichen aus Zeichenfolgen entfernt werden sollen.

Wenn Ihre externe Datenbanksoftware beispielsweise Felder in Anführungszeichen setzt, aber ein führendes Leerzeichen einfügt, liest Snowflake das führende Leerzeichen und nicht das öffnende Anführungszeichen als Anfang des Feldes (d. h. die Anführungszeichen werden als Teil der Zeichenfolge von Felddaten interpretiert). Setzen Sie diese Option auf TRUE, um unerwünschte Leerzeichen während des Datenladevorgangs zu entfernen.

Diese Dateiformatoption ist derzeit eine Vorschaufunktion.

Standard

FALSE

NULL_IF = ( 'Zeichenfolge1' [ , 'Zeichenfolge2' , ... ] )
Verwendung

Nur Laden von Daten

Definition

Wird nur angewendet, wenn ORC-Daten in separate Spalten geladen werden (z. B. mithilfe der Kopieroption MATCH_BY_COLUMN_NAME oder einer COPY-Transformation). Zeichenfolge, die zum Konvertieren in/aus SQL NULL verwendet wird. Snowflake ersetzt diese Zeichenfolgen in der Datenladequelle durch SQL NULL. Um mehr als eine Zeichenfolge anzugeben, schließen Sie die Liste der Zeichenfolgen in Klammern ein und trennen Sie jeden Wert durch Kommas.

Beispiel:

NULL_IF = ('\\N', 'NULL', 'NUL', '')

Beachten Sie, dass diese Option leere Zeichenfolgen enthalten kann.

Diese Dateiformatoption ist derzeit eine Vorschaufunktion.

Standard

\\N (d. h. NULL mit der Annahme, dass der ESCAPE_UNENCLOSED_FIELD-Wert \\ ist)

TYPE = PARQUET

COMPRESSION = AUTO | LZO | SNAPPY | NONE
Verwendung

Laden und Entladen von Daten

Definition

  • Gibt beim Laden von Daten den aktuellen Komprimierungsalgorithmus für Spalten in den Parquet-Dateien an.

  • Beim Entladen von Daten wird die Datendatei mit dem angegebenen Komprimierungsalgorithmus komprimiert.

Werte

Unterstützte Werte

Anmerkungen

AUTO

Beim Laden von Daten wird der Komprimierungsalgorithmus automatisch erkannt. Unterstützt die folgenden Komprimierungsalgorithmen: Brotli, gzip, Lempel-Ziv-Oberhumer (LZO), LZ4, Snappy oder Zstandard v0.8 (und höher). . Beim Entladen von Daten werden entladene Dateien standardmäßig mit dem Snappy-Algorithmus komprimiert.

LZO

Beim Entladen von Daten werden Dateien standardmäßig mit dem Snappy-Algorithmus komprimiert. Geben Sie diesen Wert an, wenn Daten in LZO-komprimierte Dateien entladen werden sollen.

SNAPPY

Beim Entladen von Daten werden Dateien standardmäßig mit dem Snappy-Algorithmus komprimiert. Sie können diesen Wert optional angeben.

NONE

Zeigt beim Laden von Daten an, dass die Dateien nicht komprimiert wurden. Zeigt beim Entladen von Daten an, dass die entladenen Dateien nicht komprimiert werden.

Standard

AUTO

SNAPPY_COMPRESSION = TRUE | FALSE
Verwendung

Nur Entladen von Daten

AUTO | Entladene Dateien werden standardmäßig mit dem Snappy-Komprimierungsalgorithmus komprimiert. SNAPPY | Kann angegeben werden, wenn Snappy-komprimierte Dateien entladen werden. NONE | Zeigt beim Laden von Daten an, dass die Dateien nicht komprimiert wurden. Zeigt beim Entladen von Daten an, dass die entladenen Dateien nicht komprimiert werden.

Definition

Boolescher Wert, der angibt, ob entladene Dateien mit dem SNAPPY-Algorithmus komprimiert werden.

Bemerkung

Veraltet. Verwenden Sie stattdessen COMPRESSION = SNAPPY.

Einschränkungen

Wird nur für Datenentladevorgänge unterstützt.

Standard

TRUE

BINARY_AS_TEXT = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der angibt, ob Spalten ohne definierten logischen Datentyp als UTF-8-Text interpretiert werden sollen. Wenn auf FALSE gesetzt, interpretiert Snowflake diese Spalten als Binärdaten.

Einschränkungen

Wird nur für Datenladeoperationen unterstützt.

Standard

TRUE

TRIM_SPACE = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Wird nur angewendet, wenn Parquet-Daten in separate Spalten geladen werden (z. B. mithilfe der Kopieroption MATCH_BY_COLUMN_NAME oder einer COPY-Transformation). Boolescher Wert, der angibt, ob führende und nachstehende Leerzeichen aus Zeichenfolgen entfernt werden sollen.

Wenn Ihre externe Datenbanksoftware beispielsweise Felder in Anführungszeichen setzt, aber ein führendes Leerzeichen einfügt, liest Snowflake das führende Leerzeichen und nicht das öffnende Anführungszeichen als Anfang des Feldes (d. h. die Anführungszeichen werden als Teil der Zeichenfolge von Felddaten interpretiert). Setzen Sie diese Option auf TRUE, um unerwünschte Leerzeichen während des Datenladevorgangs zu entfernen.

Diese Dateiformatoption ist derzeit eine Vorschaufunktion.

Standard

FALSE

NULL_IF = ( 'Zeichenfolge1' [ , 'Zeichenfolge2' , ... ] )
Verwendung

Nur Laden von Daten

Definition

Wird nur angewendet, wenn Parquet-Daten in separate Spalten geladen werden (z. B. mithilfe der Kopieroption MATCH_BY_COLUMN_NAME oder einer COPY-Transformation). Zeichenfolge, die zum Konvertieren in/aus SQL NULL verwendet wird. Snowflake ersetzt diese Zeichenfolgen in der Datenladequelle durch SQL NULL. Um mehr als eine Zeichenfolge anzugeben, schließen Sie die Liste der Zeichenfolgen in Klammern ein und trennen Sie jeden Wert durch Kommas.

Beispiel:

NULL_IF = ('\\N', 'NULL', 'NUL', '')

Beachten Sie, dass diese Option leere Zeichenfolgen enthalten kann.

Diese Dateiformatoption ist derzeit eine Vorschaufunktion.

Standard

\\N (d. h. NULL mit der Annahme, dass der ESCAPE_UNENCLOSED_FIELD-Wert \\ ist)

TYPE = XML

COMPRESSION = AUTO | GZIP | BZ2 | BROTLI | ZSTD | DEFLATE | RAW_DEFLATE | NONE
Verwendung

Laden und Entladen von Daten

Definition
  • Beim Laden von Daten wird der aktuelle Komprimierungsalgorithmus für die Datendatei angegeben. Snowflake verwendet diese Option, um zu erkennen, wie eine bereits komprimierte Datendatei komprimiert wurde, sodass die komprimierten Daten in der Datei zum Laden extrahiert werden können.

  • Beim Entladen von Daten wird die Datendatei mit dem angegebenen Komprimierungsalgorithmus komprimiert.

Werte

Unterstützte Werte

Anmerkungen

AUTO

Beim Laden von Daten wird der Komprimierungsalgorithmus automatisch erkannt, mit Ausnahme von Brotli-komprimierten Dateien, die derzeit nicht automatisch erkannt werden können. Beim Entladen von Daten werden Dateien automatisch mit der Standardmethode gzip komprimiert.

GZIP

BZ2

BROTLI

Muss beim Laden/Entladen von Brotli-komprimierten Dateien angegeben werden.

ZSTD

Zstandard v0.8 (und höher) wird unterstützt.

DEFLATE

Deflate-komprimierte Dateien (mit zlib-Header, RFC1950).

RAW_DEFLATE

Raw Deflate-komprimierte Dateien (ohne Header, RFC1951).

NONE

Zeigt beim Laden von Daten an, dass die Dateien nicht komprimiert wurden. Zeigt beim Entladen von Daten an, dass die entladenen Dateien nicht komprimiert werden.

Standard

AUTO

IGNORE_UTF8_ERRORS = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der angibt, ob UTF-8-Codierungsfehler Fehlerbedingungen erzeugen. Wenn auf TRUE gesetzt, werden alle ungültigen UTF-8-Sequenzen stillschweigend durch Unicodezeichen U+FFFD (d. h. „Ersatzzeichen“) ersetzt.

Standard

FALSE

PRESERVE_SPACE = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der angibt, ob der XML-Parser führende und nachstehende Leerzeichen im Elementinhalt beibehält.

Standard

FALSE

STRIP_OUTER_ELEMENT = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der angibt, ob der XML-Parser das äußere XML-Element entfernt und Elemente der zweiten Ebene als separate Dokumente anzeigt.

Standard

FALSE

DISABLE_SNOWFLAKE_DATA = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der angibt, ob der XML-Parser die Erkennung von semistrukturierten Snowflake-Daten-Tags deaktiviert.

Standard

FALSE

DISABLE_AUTO_CONVERT = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der angibt, ob der XML-Parser die automatische Konvertierung von numerischen und booleschen Werten von Text in native Darstellung deaktiviert.

Standard

FALSE

SKIP_BYTE_ORDER_MARK = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Boolescher Wert, der angibt, ob eine BOM (Byte-Reihenfolgemarke) in einer Eingabedatei übersprungen werden soll. Eine BOM ist ein Zeichencode am Anfang einer Datendatei, der die Bytefolge und die Codierungsform definiert.

Wenn auf FALSE gesetzt, erkennt Snowflake alle BOM in Datendateien, was dazu führen kann, dass die BOM entweder einen Fehler verursacht oder in der ersten Spalte der Tabelle zusammengeführt wird.

Standard

TRUE

TRIM_SPACE = TRUE | FALSE
Verwendung

Nur Laden von Daten

Definition

Wird nur angewendet, wenn XML-Daten in separate Spalten geladen werden (z. B. mithilfe der Kopieroption MATCH_BY_COLUMN_NAME oder einer COPY-Transformation). Boolescher Wert, der angibt, ob führende und nachstehende Leerzeichen aus Zeichenfolgen entfernt werden sollen.

Wenn Ihre externe Datenbanksoftware beispielsweise Felder in Anführungszeichen setzt, aber ein führendes Leerzeichen einfügt, liest Snowflake das führende Leerzeichen und nicht das öffnende Anführungszeichen als Anfang des Feldes (d. h. die Anführungszeichen werden als Teil der Zeichenfolge von Felddaten interpretiert). Setzen Sie diese Option auf TRUE, um unerwünschte Leerzeichen während des Datenladevorgangs zu entfernen.

Diese Dateiformatoption ist derzeit eine Vorschaufunktion.

Standard

FALSE

NULL_IF = ( 'Zeichenfolge1' [ , 'Zeichenfolge2' , ... ] )
Verwendung

Nur Laden von Daten

Definition

Wird nur angewendet, wenn XML-Daten in separate Spalten geladen werden (z. B. mithilfe der Kopieroption MATCH_BY_COLUMN_NAME oder einer COPY-Transformation). Zeichenfolge, die zum Konvertieren in/aus SQL NULL verwendet wird. Snowflake ersetzt diese Zeichenfolgen in der Datenladequelle durch SQL NULL. Um mehr als eine Zeichenfolge anzugeben, schließen Sie die Liste der Zeichenfolgen in Klammern ein und trennen Sie jeden Wert durch Kommas.

Beispiel:

NULL_IF = ('\\N', 'NULL', 'NUL', '')

Beachten Sie, dass diese Option leere Zeichenfolgen enthalten kann.

Diese Dateiformatoption ist derzeit eine Vorschaufunktion.

Standard

\\N (d. h. NULL mit der Annahme, dass der ESCAPE_UNENCLOSED_FIELD-Wert \\ ist)

Nutzungshinweise

  • Zusätzliche Hinweise zu den CSV-Dateiformatoptionen:

    • Ein Feld kann optional in doppelte Anführungszeichen eingeschlossen werden. Innerhalb des Feldes werden alle Sonderzeichen automatisch in Escape-Zeichen eingeschlossen, es sei denn, das doppelte Anführungszeichen selbst muss in Escape-Zeichen eingeschlossen werden, indem zwei Anführungszeichen direkt nebeneinander stehen (""). Für nicht eingeschlossene Felder ist der Backslash (\) das Standard-Escape-Zeichen.

    • Die Formatoptionen FIELD_DELIMITER, RECORD_DELIMITER, ESCAPE und ESCAPE_UNENCLOSED_FIELD unterstützen die folgenden Zeichen:

      • Oktaldarstellung (mit \\ vorangestellt) oder Hexadezimaldarstellung (mit 0x vorangestellt).

      • ASCII-Zeichen, einschließlich Zeichen hoher Ordnung. Geben Sie die Oktaldarstellung (mit dem Präfix \\) oder die Hexadezimaldarstellung (mit dem Präfix 0x) des Zeichens an. Geben Sie beispielsweise für das Centzeichen (¢) den Oktalwert (\\242) oder den Hexadezimalwert (0xA2) an.

      • Gängige Escape-Sequenzen (z. B. \t für Tabulator, \n für neue Zeile, \r für Wagenrücklauf, \\ für Backslash).

    • Der Standardwert für ESCAPE_UNENCLOSED_FIELD ist \\. Wenn beim Laden von Daten eine Zeile in einer Datendatei mit dem umgekehrten Schrägstrich (\) endet, wird das für die Dateiformatoption RECORD_DELIMITER angegebene Zeilenumbruch- oder Wagenrücklaufzeichen durch dieses Zeichen ersetzt. Infolgedessen behandelt die Ladeoperation diese und die nächste Zeile als eine Datenzeile. Um dieses Problem zu vermeiden, legen Sie ESCAPE_UNENCLOSED_FIELD = NONE fest.

  • Widersprüchliche Dateiformatwerte in einer SQL-Anweisung erzeugen einen Fehler. Ein Konflikt tritt auf, wenn die gleiche Option mehrfach mit unterschiedlichen Werten angegeben wird (z. B. ...TYPE = 'CSV' ... TYPE = 'JSON'...).

Beispiele

Erstellen Sie ein CSV-Dateiformat namens my_csv_format, das die folgenden Regeln für Datendateien definiert:

  • Felder werden durch das Pipe-Zeichen (|) begrenzt.

  • Dateien enthalten eine einzige Kopfzeile, die übersprungen wird.

  • Die Zeichenfolgen NULL und null werden durch NULL-Werte ersetzt.

  • Leere Zeichenfolgen werden als NULL-Werte interpretiert.

  • Dateien werden mit der GZIP-Komprimierung komprimiert/dekomprimiert.

CREATE OR REPLACE FILE FORMAT my_csv_format
  TYPE = CSV
  FIELD_DELIMITER = '|'
  SKIP_HEADER = 1
  NULL_IF = ('NULL', 'null')
  EMPTY_FIELD_AS_NULL = true
  COMPRESSION = gzip;

Erstellen Sie ein JSON-Dateiformat namens my_json_format, das alle standardmäßigen JSON-Formatoptionen verwendet:

CREATE OR REPLACE FILE FORMAT my_json_format
  TYPE = JSON;

Erstellen Sie ein PARQUET-Dateiformat namens my_parquet_format, das entladene Datendateien nicht mit dem Snappy-Algorithmus komprimiert:

CREATE OR REPLACE FILE FORMAT my_parquet_format
  TYPE = PARQUET
  COMPRESSION = SNAPPY;