CREATE FILE FORMAT¶

Erstellt ein benanntes Dateiformat, das ein Set von Stagingbereichsdaten beschreibt, auf die zugegriffen oder die in Snowflake-Tabellen geladen werden soll.

Darüber hinaus unterstützt dieser Befehl die folgenden Varianten:

CREATE OR ALTER FILE FORMAT: Erzeugt ein benanntes Dateiformat, wenn es noch nicht existiert, oder ändert ein vorhandenes Dateiformat.

Siehe auch:

ALTER FILE FORMAT, DROP FILE FORMAT, SHOW FILE FORMATS, DESCRIBE FILE FORMAT

COPY INTO <Speicherort> , COPY INTO <Tabelle> , CREATE OR ALTER <objekt>

Syntax¶

CREATE [ OR REPLACE ] [ { TEMP | TEMPORARY | VOLATILE } ] FILE FORMAT [ IF NOT EXISTS ] <name>
  [ TYPE = { CSV | JSON | AVRO | ORC | PARQUET | XML } [ formatTypeOptions ] ]
  [ COMMENT = '<string_literal>' ]

Wobei:

formatTypeOptions ::=
-- If TYPE = CSV
     COMPRESSION = AUTO | GZIP | BZ2 | BROTLI | ZSTD | DEFLATE | RAW_DEFLATE | NONE
     RECORD_DELIMITER = '<string>' | NONE
     FIELD_DELIMITER = '<string>' | NONE
     MULTI_LINE = TRUE | FALSE
     FILE_EXTENSION = '<string>'
     PARSE_HEADER = TRUE | FALSE
     SKIP_HEADER = <integer>
     SKIP_BLANK_LINES = TRUE | FALSE
     DATE_FORMAT = '<string>' | AUTO
     TIME_FORMAT = '<string>' | AUTO
     TIMESTAMP_FORMAT = '<string>' | AUTO
     BINARY_FORMAT = HEX | BASE64 | UTF8
     ESCAPE = '<character>' | NONE
     ESCAPE_UNENCLOSED_FIELD = '<character>' | NONE
     TRIM_SPACE = TRUE | FALSE
     FIELD_OPTIONALLY_ENCLOSED_BY = '<character>' | NONE
     NULL_IF = ( '<string>' [ , '<string>' ... ] )
     ERROR_ON_COLUMN_COUNT_MISMATCH = TRUE | FALSE
     REPLACE_INVALID_CHARACTERS = TRUE | FALSE
     EMPTY_FIELD_AS_NULL = TRUE | FALSE
     SKIP_BYTE_ORDER_MARK = TRUE | FALSE
     ENCODING = '<string>' | UTF8
-- If TYPE = JSON
     COMPRESSION = AUTO | GZIP | BZ2 | BROTLI | ZSTD | DEFLATE | RAW_DEFLATE | NONE
     DATE_FORMAT = '<string>' | AUTO
     TIME_FORMAT = '<string>' | AUTO
     TIMESTAMP_FORMAT = '<string>' | AUTO
     BINARY_FORMAT = HEX | BASE64 | UTF8
     TRIM_SPACE = TRUE | FALSE
     MULTI_LINE = TRUE | FALSE
     NULL_IF = ( '<string>' [ , '<string>' ... ] )
     FILE_EXTENSION = '<string>'
     ENABLE_OCTAL = TRUE | FALSE
     ALLOW_DUPLICATE = TRUE | FALSE
     STRIP_OUTER_ARRAY = TRUE | FALSE
     STRIP_NULL_VALUES = TRUE | FALSE
     REPLACE_INVALID_CHARACTERS = TRUE | FALSE
     IGNORE_UTF8_ERRORS = TRUE | FALSE
     SKIP_BYTE_ORDER_MARK = TRUE | FALSE
-- If TYPE = AVRO
     COMPRESSION = AUTO | GZIP | BROTLI | ZSTD | DEFLATE | RAW_DEFLATE | NONE
     TRIM_SPACE = TRUE | FALSE
     REPLACE_INVALID_CHARACTERS = TRUE | FALSE
     NULL_IF = ( '<string>' [ , '<string>' ... ] )
-- If TYPE = ORC
     TRIM_SPACE = TRUE | FALSE
     REPLACE_INVALID_CHARACTERS = TRUE | FALSE
     NULL_IF = ( '<string>' [ , '<string>' ... ] )
-- If TYPE = PARQUET
     COMPRESSION = AUTO | LZO | SNAPPY | NONE
     SNAPPY_COMPRESSION = TRUE | FALSE
     BINARY_AS_TEXT = TRUE | FALSE
     USE_LOGICAL_TYPE = TRUE | FALSE
     TRIM_SPACE = TRUE | FALSE
     USE_VECTORIZED_SCANNER = TRUE | FALSE
     REPLACE_INVALID_CHARACTERS = TRUE | FALSE
     NULL_IF = ( '<string>' [ , '<string>' ... ] )
-- If TYPE = XML
     COMPRESSION = AUTO | GZIP | BZ2 | BROTLI | ZSTD | DEFLATE | RAW_DEFLATE | NONE
     IGNORE_UTF8_ERRORS = TRUE | FALSE
     PRESERVE_SPACE = TRUE | FALSE
     STRIP_OUTER_ELEMENT = TRUE | FALSE
     DISABLE_AUTO_CONVERT = TRUE | FALSE
     REPLACE_INVALID_CHARACTERS = TRUE | FALSE
     SKIP_BYTE_ORDER_MARK = TRUE | FALSE

Syntaxvariante¶

CREATE OR ALTER FILE FORMAT¶

Erzeugt ein neues benanntes Dateiformat, wenn es noch nicht existiert, oder wandelt ein vorhandenes Dateiformat in das in der Anweisung definierte um. Eine CREATE OR ALTER FILEFORMAT-Anweisung folgt den Syntaxregeln einer CREATEFILEFORMAT-Anweisung und hat die gleichen Einschränkungen wie eine ALTER FILE FORMAT-Anweisung.

Zu den unterstützten Änderungen gehören Änderungen an den Eigenschaften formatTypeOptions und COMMENT. Sie können die Eigenschaft TYPE nicht ändern.

Weitere Informationen dazu finden Sie unter Nutzungshinweise zu CREATE OR ALTER FILEFORMAT.

CREATE OR ALTER [ { TEMP | TEMPORARY | VOLATILE } ] FILE FORMAT <name>
  [ TYPE = { CSV | JSON | AVRO | ORC | PARQUET | XML } [ formatTypeOptions ] ]
  [ COMMENT = '<string_literal>' ]

Erforderliche Parameter¶

name

Gibt den Bezeichner für das Dateiformat an. Dieser muss für das Schema, in dem das Dateiformat erstellt wird, eindeutig sein.

Der Bezeichnerwert muss mit einem alphabetischen Zeichen beginnen und darf keine Leerzeichen oder Sonderzeichen enthalten, es sei denn, die gesamte Bezeichnerzeichenfolge wird in doppelte Anführungszeichen eingeschlossen (z. B. "My object"). Bei Bezeichnern, die in doppelte Anführungszeichen eingeschlossen sind, ist auch die Groß- und Kleinschreibung zu beachten.

Weitere Details dazu finden Sie unter Anforderungen an Bezeichner.

Optionale Parameter¶

{ TEMP | TEMPORARY | VOLATILE }

Legt fest, dass das Dateiformat nur für die Dauer der Sitzung bestehen bleibt, in der Sie es erstellt haben. Ein temporäres Dateiformat wird am Ende der Sitzung gelöscht.

Standard: Kein Wert. Wenn ein Dateiformat nicht als TEMPORARY deklariert ist, ist das Dateiformat permanent.

Wenn Sie unerwartete Konflikte vermeiden möchten, benennen Sie temporäre Dateiformate nicht nach Dateiformaten, die bereits im Schema vorhanden sind.

Wenn Sie ein temporäres Dateiformat mit demselben Namen wie ein anderes Dateiformat im Schema erstellt haben, wirken sich alle Abfragen und Operationen, die auf das Dateiformat angewendet werden, nur auf das temporäre Dateiformat in der Sitzung aus, bis Sie das temporäre Dateiformat löschen. Wenn Sie das Dateiformat mit einem DROP FILE FORMAT-Befehl löschen, löschen Sie das temporäre Dateiformat und nicht das Dateiformat, das bereits im Schema vorhanden ist.

Gibt das Format der Eingabedateien (zum Laden von Daten) oder der Ausgabedateien (zum Entladen von Daten) an. Je nach Formattyp können Sie zusätzliche formatspezifische Optionen angeben. Weitere Informationen dazu finden Sie unter Formattypoptionen (unter diesem Thema).

Gültige Werte hängen davon ab, ob das Dateiformat für das Laden oder Entladen von Daten ist:

CSV (zum Laden und Entladen)
Jede Nur-Text-Datei (oder Flatfile), die bestimmte Zeichen verwendet, wie z. B.:

Trennzeichen für Felder innerhalb von Datensätzen (z. B. Kommas)

Trennzeichen für Datensätze (z. B. Neu-Zeile-Zeichen)

Obwohl der Name (CSV) auf kommagetrennte Werte hindeutet, können Sie jedes gültige Zeichen als Feldtrennzeichen verwenden.

JSON (zum Laden und Entladen)
Jede einfache Textdatei, die ein oder mehrere JSON-Dokumente (wie Objekte oder Arrays) enthält. JSON ist ein semistrukturiertes Dateiformat. Die Dokumente können durch Komma getrennt und optional in einem großen Array eingeschlossen werden. Ein einzelnes JSON-Dokument kann sich über mehrere Zeilen erstrecken.

Bemerkung

Beim Laden von Daten aus Dateien in Tabellen unterstützt Snowflake entweder das Standardformat NDJSON („Newline Delimited JSON“) oder das durch Komma getrennte JSON-Format.

Wenn Sie Tabellendaten in Dateien entladen, gibt Snowflake sie nur im NDJSON-Format aus.

AVRO (nur zum Laden von Daten; Sie können die Daten nicht in das AVRO-Format entladen)
Binärdatei im AVRO-Format.

ORC (nur zum Laden von Daten; Sie können die Daten nicht in das ORC-Format entladen)
Binärdatei im ORC-Format.

PARQUET (zum Laden und Entladen)
Binärdatei im PARQUET-Format.

XML (nur zum Laden von Daten; Sie können die Daten nicht in das XML-Format entladen)
Nur-Text-Datei mit XML-Elementen.

For more information about CSV, see Usage Notes in this topic. For more information about JSON and the other semi-structured file formats, see Introduction to loading semi-structured data.

Standard: CSV

COMMENT = 'string_literal'

Gibt einen Kommentar für das Dateiformat an.

Standard: Kein Wert

Formattypoptionen (`formatTypeOptions`)¶

Je nach angegebenem Dateiformattyp (TYPE = ...) können Sie eine oder mehrere der folgenden formatspezifischen Optionen (durch Leerzeichen, Kommas oder Neue-Zeile-Zeichen getrennt) einschließen:

TYPE = CSV¶

Verwendung:

Laden von Daten, Entladen von Daten und externe Tabellen

Definition:

Beim Laden von Daten wird der aktuelle Komprimierungsalgorithmus für die Datendatei angegeben. Snowflake verwendet diese Option, um zu erkennen, wie eine bereits komprimierte Datendatei komprimiert wurde, sodass die komprimierten Daten in der Datei zum Laden extrahiert werden können.
Beim Entladen von Daten wird die Datendatei mit dem angegebenen Komprimierungsalgorithmus komprimiert.

Werte:


Unterstützte Werte	Anmerkungen
`AUTO`	Beim Laden von Daten wird der Komprimierungsalgorithmus automatisch erkannt, mit Ausnahme von Brotli-komprimierten Dateien, die derzeit nicht automatisch erkannt werden können. Beim Entladen von Daten werden Dateien automatisch mit der Standardmethode gzip komprimiert.
`GZIP`
`BZ2`
`BROTLI`	Muss beim Laden/Entladen von Brotli-komprimierten Dateien angegeben werden.
`ZSTD`	Zstandard v0.8 (und höher) wird unterstützt.
`DEFLATE`	Deflate-komprimierte Dateien (mit zlib-Header, RFC1950).
`RAW_DEFLATE`	Raw Deflate-komprimierte Dateien (ohne Header, RFC1951).
`NONE`	Zeigt beim Laden von Daten an, dass die Dateien nicht komprimiert wurden. Zeigt beim Entladen von Daten an, dass die entladenen Dateien nicht komprimiert werden.

Standard:

AUTO

RECORD_DELIMITER = 'string' | NONE

Verwendung:

Laden von Daten, Entladen von Daten und externe Tabellen

Definition:

Ein oder mehrere Einzelbyte- oder Multibyte-Zeichen, die Datensätze in einer Eingabedatei (Laden von Daten) oder einer entladenen Datei (Entladen von Daten) voneinander trennen. Akzeptiert gängige Escapesequenzen oder die folgenden Einzelbyte- oder Multibyte-Zeichen:

Einzelbyte-Zeichen:

Oktalwerte (mit \\ vorangestellt) oder Hex-Werte (mit 0x oder \x vorangestellt). Geben Sie beispielsweise für Datensätze, die durch das Zirkumflex-Akzentzeichen (^) getrennt sind, den Oktalwert (\\136) oder den Hexadezimalwert (0x5e) an.

Multibyte-Zeichen:

Hex-Werte (mit vorangestelltem \x). Geben Sie beispielsweise für Datensätze, die durch das Centzeichen (¢) getrennt sind, den Hexadezimalwert (\xC2\xA2) an.

Das Trennzeichen für RECORD_DELIMITER oder FIELD_DELIMITER kann keine Teilzeichenfolge des Trennzeichens für die andere Dateiformatoption sein (z. B. FIELD_DELIMITER = 'aa' RECORD_DELIMITER = 'aabb').

Das angegebene Trennzeichen muss ein gültiges UTF-8-Zeichen sein und darf keine zufällige Sequenz von Bytes sein. Beachten Sie auch, dass das Trennzeichen nur maximal 20 Zeichen lang sein darf.

Akzeptiert auch den Wert NONE.

Standard:

Laden von Daten:: Zeichen für „Neue Zeile“. Beachten Sie, dass „neue Zeile“ logisch ist, sodass \r\n als neue Zeile für Dateien auf einer Windows-Plattform verstanden wird.
Entladen von Daten:: Neue-Zeile-Zeichen (\n).

FIELD_DELIMITER = 'string' | NONE

Verwendung:

Laden von Daten, Entladen von Daten und externe Tabellen

Definition:

Ein oder mehrere Einzelbyte- oder Multibyte-Zeichen, die Felder in einer Eingabedatei (Laden von Daten) oder einer entladenen Datei (Entladen von Daten) voneinander trennen. Akzeptiert gängige Escapesequenzen oder die folgenden Einzelbyte- oder Multibyte-Zeichen:

Einzelbyte-Zeichen:

Multibyte-Zeichen:

Hex-Werte (mit vorangestelltem \x). Geben Sie beispielsweise für Datensätze, die durch das Centzeichen (¢) getrennt sind, den Hexadezimalwert (\xC2\xA2) an.

Bemerkung

Für Nicht-ASCII-Zeichen müssen Sie den Hex-Byte-Sequenzwert verwenden, um ein deterministisches Verhalten zu erreichen.

Das angegebene Trennzeichen muss ein gültiges UTF-8-Zeichen sein und darf keine zufällige Sequenz von Bytes sein. Beachten Sie auch, dass das Trennzeichen nur maximal 20 Zeichen lang sein darf.

Akzeptiert auch den Wert NONE.

Standard:

Komma (,)

MULTI_LINE = TRUE | FALSE

Verwendung:: Laden von Daten und externe Tabellen
Definition:: Boolescher Wert, der angibt, ob mehrere Zeilen erlaubt sind. Wenn MULTI_LINE auf FALSE gesetzt ist und das angegebene Datensatz-Trennzeichen innerhalb eines CSV-Feldes vorhanden ist, wird der Datensatz, der das Feld enthält, als Fehler interpretiert.
Standard:: TRUE

Bemerkung

Wenn Sie große unkomprimierte CSV-Dateien laden (größer als 128MB), die RFC4180-Spezifikationen folgen, unterstützt Snowflake das parallele Scannen dieser CSV-Dateien, wenn MULTI_LINE auf FALSE gesetzt ist, COMPRESSION auf NONE und ON_ERROR auf ABORT_STATEMENT oder CONTINUE gesetzt ist.

FILE_EXTENSION = 'string' | NONE

Verwendung:: Nur Entladen von Daten
Definition:: Gibt die Erweiterung für Dateien an, die in einen Stagingbereich entladen werden. Akzeptiert jede Erweiterung. Der Benutzer ist dafür verantwortlich, eine Dateiendung anzugeben, die von jeder gewünschten Software oder dem gewünschten Dienst gelesen werden kann.
Standard:: Null, d. h. die Dateiendung wird durch den Formattyp bestimmt: .csv[compression], wobei compression die durch das Komprimierungsverfahren hinzugefügte Erweiterung ist, wenn COMPRESSION gesetzt ist.

Bemerkung

Wenn die Kopieroption SINGLE den Wert TRUE hat, wird mit dem Befehl COPY standardmäßig eine Datei ohne Dateierweiterung entladen. Um eine Dateierweiterung anzugeben, geben Sie einen Dateinamen und eine Erweiterung im Pfad internal_location oder external_location an (zum Beispiel copy into @stage/data.csv).

PARSE_HEADER = TRUE | FALSE

Verwendung:: Nur Laden von Daten
Definition:: Boolescher Wert, der angibt, ob die Überschriften in der ersten Zeile der Datendateien zur Bestimmung der Spaltennamen verwendet werden sollen.

Diese Dateiformatoption wird nur bei folgenden Aktionen angewendet:

Automatisches Erkennen von Spaltendefinitionen mithilfe der Funktion INFER_SCHEMA.

Laden von CSV-Daten in separate Spalten mithilfe der Funktion INFER_SCHEMA und der Kopieroption MATCH_BY_COLUMN_NAME.

Wenn die Option auf TRUE gesetzt ist, werden die Überschriften in der ersten Zeile zur Bestimmung der Spaltennamen verwendet. Der Standardwert FALSE gibt die Spaltennamen als „c “ zurück, wobei „ “ die Position der Spalte ist.

Bemerkung

Diese Option wird für externe Tabellen nicht unterstützt.
Die Option SKIP_HEADER wird nicht unterstützt, wenn Sie PARSE_HEADER = TRUE einstellen.

Standard:: FALSE

SKIP_HEADER = integer

Verwendung:: Laden von Daten und externe Tabellen
Definition:: Anzahl der Zeilen am Anfang der zu überspringenden Datei.

Beachten Sie, dass SKIP_HEADER nicht die Werte RECORD_DELIMITER oder FIELD_DELIMITER verwendet, um zu bestimmen, was eine Kopfzeile ist. Stattdessen wird einfach die angegebene Anzahl von CRLF (Wagenrücklauf, Zeilenvorschub)-begrenzten Zeilen in der Datei übersprungen. RECORD_DELIMITER und FIELD_DELIMITER werden dann verwendet, um die zu ladenden Datenzeilen zu bestimmen.

Standard:: 0

SKIP_BLANK_LINES = TRUE | FALSE

Verwendung:: Laden von Daten und externe Tabellen
Definition:: Boolescher Wert, der angibt, ob Leerzeilen in den Datendateien übersprungen werden sollen oder ob sie zu einem Datensatzende-Fehler (Standardverhalten) führen.
Standard:: FALSE

DATE_FORMAT = 'string' | AUTO

Verwendung:: Laden und Entladen von Daten
Definition:: Definiert das Format der Datumswerte in den Datendateien (Laden von Daten) oder der Tabelle (Entladen von Daten). Wenn ein Wert nicht angegeben ist oder AUTO ist, wird der Wert für den Parameter DATE_INPUT_FORMAT (Laden von Daten) oder DATE_OUTPUT_FORMAT (Entladen von Daten) verwendet.
Standard:: AUTO

TIME_FORMAT = 'string' | AUTO

Verwendung:: Laden und Entladen von Daten
Definition:: Definiert das Format der Zeitwerte in den Datendateien (Laden von Daten) oder der Tabelle (Entladen von Daten). Wenn ein Wert nicht angegeben ist oder AUTO ist, wird der Wert für den Parameter TIME_INPUT_FORMAT (Laden von Daten) oder TIME_OUTPUT_FORMAT (Entladen von Daten) verwendet.
Standard:: AUTO

TIMESTAMP_FORMAT = string' | AUTO

Verwendung:: Laden und Entladen von Daten
Definition:: Definiert das Format der Zeitstempelwerte in den Datendateien (Laden von Daten) oder der Tabelle (Entladen von Daten). Wenn ein Wert nicht angegeben oder AUTO ist, wird der Wert für den Parameter TIMESTAMP_INPUT_FORMAT (Laden von Daten) oder TIMESTAMP_OUTPUT_FORMAT (Entladen von Daten) verwendet.
Standard:: AUTO

BINARY_FORMAT = HEX | BASE64 | UTF8

Verwendung:: Laden und Entladen von Daten
Definition:: Definiert das Codierungsformat für die Binäreingabe oder -ausgabe. Die Option kann beim Laden von Daten in oder Entladen von Daten aus binären Spalten einer Tabelle verwendet werden.
Standard:: HEX

ESCAPE = 'character' | NONE

Verwendung:

Laden und Entladen von Daten

Definition:

Zeichenfolge mit einem Einzelbyte-Zeichen, das als Escapezeichen für eingeschlossene und nicht eingeschlossene Feldwerte verwendet wird. Ein Escapezeichen ruft eine alternative Interpretation für nachfolgende Zeichen in einer Sequenz von Zeichen auf. Sie können das ESCAPE-Zeichen verwenden, um Instanzen von FIELD_OPTIONALLY_ENCLOSED_BY-Zeichen in den Daten als Literale zu interpretieren.

Akzeptiert gängige Escapesequenzen, Oktalwerte oder Hexadezimalwerte.

Laden von Daten:

Gibt nur das Escapezeichen für eingeschlossene Felder an. Geben Sie das Zeichen an, das zum Einschließen von Feldern verwendet wird, indem Sie FIELD_OPTIONALLY_ENCLOSED_BY festlegen.

Bemerkung

Diese Dateiformatoption unterstützt nur Einzelbyte-Zeichen. Beachten Sie, dass die UTF-8-Zeichencodierung höherwertige ASCII-Zeichen als Multibyte-Zeichen darstellt. Wenn Ihre Datendatei mit dem UTF-8-Zeichensatz kodiert ist, können Sie keine höherwertigen ASCII-Zeichen als Optionswert angeben.

Wenn Sie ein höherwertiges Zeichen (ASCII) angeben, empfehlen wir Ihnen außerdem, die Dateiformatoption ENCODING = 'string' als Zeichencodierung für Ihre Datendateien festzulegen, damit das Zeichen korrekt interpretiert wird.

Entladen von Daten:

Wenn diese Option gesetzt ist, wird der Escapezeichensatz für ESCAPE_UNENCLOSED_FIELD überschrieben.

Standard:

NONE

ESCAPE_UNENCLOSED_FIELD = 'character' | NONE

Verwendung:

Laden von Daten, Entladen von Daten und externe Tabellen

Definition:

Zeichenfolge mit Einzelbyte-Zeichen, das als Escapezeichen nur für nicht eingeschlossene Feldwerte verwendet wird. Ein Escapezeichen ruft eine alternative Interpretation für nachfolgende Zeichen in einer Sequenz von Zeichen auf. Sie können das ESCAPE-Zeichen verwenden, um Instanzen von FIELD_DELIMITER- oder RECORD_DELIMITER-Zeichen in den Daten als Literale zu interpretieren. Das Escapezeichen kann auch verwendet werden, um Instanzen von sich selbst in den Daten in Escapezeichen einzuschließen.

Akzeptiert gängige Escapesequenzen, Oktalwerte oder Hexadezimalwerte.

Laden von Daten:

Gibt nur das Escapezeichen für nicht eingeschlossene Felder an.

Bemerkung

Der Standardwert ist \\. Wenn eine Zeile in einer Datendatei mit dem umgekehrten Schrägstrich (\) endet, wird das für die Dateiformatoption RECORD_DELIMITER angegebene Zeilenumbruch- oder Wagenrücklaufzeichen durch dieses Zeichen ersetzt. Infolgedessen behandelt die Ladeoperation diese und die nächste Zeile als eine Datenzeile. Um dieses Problem zu vermeiden, setzen Sie diesen Wert auf NONE.
Diese Dateiformatoption unterstützt nur Einzelbyte-Zeichen. Beachten Sie, dass die UTF-8-Zeichencodierung höherwertige ASCII-Zeichen als Multibyte-Zeichen darstellt. Wenn Ihre Datendatei mit dem UTF-8-Zeichensatz kodiert ist, können Sie keine höherwertigen ASCII-Zeichen als Optionswert angeben.

Wenn Sie ein höherwertiges Zeichen (ASCII) angeben, empfehlen wir Ihnen außerdem, die Dateiformatoption ENCODING = 'string' als Zeichencodierung für Ihre Datendateien festzulegen, damit das Zeichen korrekt interpretiert wird.

Entladen von Daten:

Wenn ESCAPE gesetzt ist, wird diese Option vom Escapezeichensatz der Dateiformatoption überschrieben.

Standard:

Backslash (\\)

TRIM_SPACE = TRUE | FALSE

Verwendung:

Laden von Daten und externe Tabellen

Definition:

Boolescher Wert, der angibt, ob Leerzeichen aus Feldern entfernt werden sollen.

Wenn Ihre externe Datenbanksoftware beispielsweise Felder in Anführungszeichen setzt, aber ein führendes Leerzeichen einfügt, liest Snowflake das führende Leerzeichen und nicht das öffnende Anführungszeichen als Anfang des Feldes (d. h. die Anführungszeichen werden als Teil der Zeichenfolge von Felddaten interpretiert). Setzen Sie diese Option auf TRUE, um unerwünschte Leerzeichen während des Datenladevorgangs zu entfernen.

Weiteres Beispiel: Wenn Zeichenfolgen von Anführungszeichen umschlossen sind und die Anführungszeichen von führenden oder nachstehende Leerzeichen, können Sie die umgebenden Leerzeichen mit dieser Option entfernen und die Anführungszeichen mit der Option FIELD_OPTIONALLY_ENCLOSED_BY. Beachten Sie, dass alle innerhalb der Anführungszeichen befindlichen Leerzeichen erhalten bleiben. Zum Beispiel bei FIELD_DELIMITER = '|' und FIELD_OPTIONALLY_ENCLOSED_BY = '"':

|"Hello world"|    /* loads as */  >Hello world<
|" Hello world "|  /* loads as */  > Hello world <
| "Hello world" |  /* loads as */  >Hello world<

(die Klammern in diesem Beispiel werden nicht geladen; sie dienen dazu, den Anfang und das Ende der geladenen Zeichenfolgen zu markieren).

Standard:

FALSE

FIELD_OPTIONALLY_ENCLOSED_BY = 'character' | NONE

Verwendung:

Laden von Daten, Entladen von Daten und externe Tabellen

Definition:

Zeichen, das verwendet wird, um Zeichenfolgen einzuschließen. Der Wert kann NONE, ein einfaches Anführungszeichen (') oder ein doppeltes Anführungszeichen (") sein. Um das einfache Anführungszeichen verwenden zu können, müssen Sie die oktale oder hexadezimale Darstellung (0x27) oder das doppelte einfache Anführungszeichen als Escape-Zeichen ('') verwenden.

Nur Entladen von Daten:

Wenn ein Feld in der Quelltabelle dieses Zeichen enthält, wird es von Snowflake unter Verwendung desselben Zeichens zum Entladen escaped. Wenn der Wert beispielsweise das doppelte Anführungszeichen ist und ein Feld die Zeichenfolge A "B" C enthält, setzt Snowflake Escapezeichen für die doppelten Anführungszeichen:

A ""B"" C

Standard:

NONE

NULL_IF = ( 'string1' [ , 'string2' , ... ] )

Verwendung:

Laden von Daten, Entladen von Daten und externe Tabellen

Definition:

Zeichenfolge, die zum Konvertieren in und von SQL NULL verwendet wird:

Beim Laden von Daten ersetzt Snowflake diese Werte in der Datenladequelle durch SQL NULL. Um mehr als eine Zeichenfolge anzugeben, schließen Sie die Liste der Zeichenfolgen in Klammern ein und trennen Sie jeden Wert durch Kommas.

Beachten Sie, dass Snowflake alle Instanzen des Wertes in einen NULL-Wert konvertiert, unabhängig vom Datentyp. Wenn z. B. 2 als Wert angegeben wird, werden alle Instanzen von 2 entweder in eine Zeichenfolge oder in eine Zahl konvertiert.

Beispiel:

NULL_IF = ('\N', 'NULL', 'NUL', '')

Beachten Sie, dass diese Option leere Zeichenfolgen enthalten kann.
Beim Entladen von Daten konvertiert Snowflake SQL-NULL-Werte in den ersten Wert der Liste.

Standard:

\N (d. h. NULL, wobei davon ausgegangen wird, dass der Wert ESCAPE_UNENCLOSED_FIELD \ ist)

ERROR_ON_COLUMN_COUNT_MISMATCH = TRUE | FALSE

Verwendung:

Nur Laden von Daten

Definition:

Boolescher Wert, der angibt, ob ein Parsing-Fehler generiert werden soll, wenn die Anzahl der durch Trennzeichen begrenzten Spalten (d. h. Felder) in einer Eingabedatei nicht mit der Anzahl der Spalten in der entsprechenden Tabelle übereinstimmt.

Wenn auf FALSE gesetzt, wird kein Fehler erzeugt und die Last wird fortgesetzt. Wenn die Datei erfolgreich geladen wurde:

Wenn die Eingabedatei Datensätze mit mehr Feldern als Spalten in der Tabelle enthält, werden die übereinstimmenden Felder in der Reihenfolge ihres Auftretens in der Datei und die restlichen Felder nicht geladen.
Wenn die Eingabedatei Datensätze mit weniger Feldern als Spalten in der Tabelle enthält, werden die nicht übereinstimmenden Spalten in der Tabelle mit NULL-Werten geladen.

Diese Option geht davon aus, dass alle Datensätze innerhalb der Eingabedatei die gleiche Länge haben (d. h. eine Datei mit Datensätzen unterschiedlicher Länge gibt unabhängig vom für diesen Parameter angegebenen Wert einen Fehler zurück).

Standard:

TRUE

Bemerkung

Bei der Transformation von Daten während des Ladevorgangs (d. h. Verwendung einer Abfrage als Quelle für den Befehl COPY), wird diese Option ignoriert. Es ist nicht erforderlich, dass die Datendateien die gleiche Anzahl und Reihenfolge der Spalten aufweisen wie die Zieltabelle.

REPLACE_INVALID_CHARACTERS = TRUE | FALSE

Verwendung:: Nur Laden von Daten
Definition:: Boolescher Wert, der angibt, ob ungültige UTF-8-Zeichen durch das Unicode-Ersetzungszeichen ersetzt werden sollen (�).

Bei Einstellung auf TRUE ersetzt Snowflake ungültige UTF-8-Zeichen durch das Unicode-Ersetzungszeichen.

Bei Einstellung auf FALSE gibt die Ladeoperation einen Fehler aus, wenn eine ungültige UTF-8-Zeichencodierung erkannt wird.

Standard:: FALSE

EMPTY_FIELD_AS_NULL = TRUE | FALSE

Verwendung:

Laden von Daten, Entladen von Daten und externe Tabellen

Definition:

Gibt beim Laden von Daten an, ob SQL NULL für leere Felder in einer Eingabedatei eingefügt werden soll, die durch zwei aufeinander folgende Trennzeichen dargestellt werden (z. B. ,,).

Wenn der Wert FALSE ist, versucht Snowflake, einem leeren Feld den entsprechenden Spaltentyp zuzuweisen. In Spalten vom Typ STRING wird eine leere Zeichenfolge eingefügt. Für andere Spaltentypen generiert der COPY-Befehl einen Fehler.
Beim Entladen von Daten wird diese Option in Kombination mit FIELD_OPTIONALLY_ENCLOSED_BY verwendet. Wenn FIELD_OPTIONALLY_ENCLOSED_BY = NONE festgelegt ist, werden bei EMPTY_FIELD_AS_NULL = FALSE leere Zeichenfolgen in Tabellen entladen, um leere Zeichenfolgenwerte zu erhalten, ohne dass die Feldwerte in Anführungszeichen eingeschlossen werden.

Wenn TRUE festgelegt wird, muss FIELD_OPTIONALLY_ENCLOSED_BY ein Zeichen angeben, das zum Umschließen von Zeichenfolgen verwendet wird.

Standard:

TRUE

SKIP_BYTE_ORDER_MARK = TRUE | FALSE

Verwendung:

Nur Laden von Daten

Definition:

Boolescher Wert, der angibt, ob die BOM (Bytereihenfolge-Marke) übersprungen werden soll, wenn sie in einer Datendatei vorhanden ist. Eine BOM ist ein Zeichencode am Anfang einer Datendatei, der die Bytefolge und die Codierungsform definiert.

Wenn auf FALSE gesetzt, erkennt Snowflake alle BOM in Datendateien, was dazu führen kann, dass die BOM entweder einen Fehler verursacht oder in der ersten Spalte der Tabelle zusammengeführt wird.

Standard:

TRUE

ENCODING = 'string'

Verwendung:

Laden von Daten und externe Tabellen

Definition:

Zeichenfolge (Konstante), die den Zeichensatz der Quelldaten beim Laden von Daten in eine Tabelle angibt.


Zeichensatz	`ENCODING` -Wert	Unterstützte Sprachen	Anmerkungen
Big5	`BIG5`	Traditionelles Chinesisch
EUC-JP	`EUCJP`	Japanisch
EUC-KR	`EUCKR`	Koreanisch
GB18030	`GB18030`	Chinesisch
IBM420	`IBM420`	Arabisch
IBM424	`IBM424`	Hebräisch
IBM949	`IBM949`	Koreanisch
ISO-2022-CN	`ISO2022CN`	Vereinfachtes Chinesisch
ISO-2022-JP	`ISO2022JP`	Japanisch
ISO-2022-KR	`ISO2022KR`	Koreanisch
ISO-8859-1	`ISO88591`	Dänisch, Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch
ISO-8859-2	`ISO88592`	Polnisch, Rumänisch, Tschechisch, Ungarisch
ISO-8859-5	`ISO88595`	Russisch
ISO-8859-6	`ISO88596`	Arabisch
ISO-8859-7	`ISO88597`	Griechisch
ISO-8859-8	`ISO88598`	Hebräisch
ISO-8859-9	`ISO88599`	Türkisch
ISO-8859-15	`ISO885915`	Dänisch, Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch	Identisch mit ISO-8859-1, bis auf 8 Zeichen, zu denen auch das Euro-Währungssymbol gehört.
KOI8-R	`KOI8R`	Russisch
Shift_JIS	`SHIFTJIS`	Japanisch
UTF-8	`UTF8`	Alle Sprachen	Zum Laden von Daten aus Dateien mit Trennzeichen (CSV, TSV usw.) ist UTF-8 die Standardeinstellung. . . Beim Laden von Daten aus allen anderen unterstützten Dateiformaten (JSON, Avro usw.) sowie zum Entladen von Daten ist UTF-8 der einzige unterstützte Zeichensatz.
UTF-16	`UTF16`	Alle Sprachen
UTF-16BE	`UTF16BE`	Alle Sprachen
UTF-16LE	`UTF16LE`	Alle Sprachen
UTF-32	`UTF32`	Alle Sprachen
UTF-32BE	`UTF32BE`	Alle Sprachen
UTF-32LE	`UTF32LE`	Alle Sprachen
windows-874	`WINDOWS874`	Thailändisch
windows-949	`WINDOWS949`	Koreanisch
windows-1250	`WINDOWS1250`	Polnisch, Rumänisch, Tschechisch, Ungarisch
windows-1251	`WINDOWS1251`	Russisch
windows-1252	`WINDOWS1252`	Dänisch, Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch
windows-1253	`WINDOWS1253`	Griechisch
windows-1254	`WINDOWS1254`	Türkisch
windows-1255	`WINDOWS1255`	Hebräisch
windows-1256	`WINDOWS1256`	Arabisch

Standard:

UTF8

Bemerkung

Snowflake speichert alle Daten intern im UTF-8-Zeichensatz. Die Daten werden in UTF-8 umgewandelt, bevor sie in Snowflake geladen werden.

TYPE = JSON¶

Verwendung:

Laden von Daten und externe Tabellen

Definition:

Beim Laden von Daten wird der aktuelle Komprimierungsalgorithmus für die Datendatei angegeben. Snowflake verwendet diese Option, um zu erkennen, wie eine bereits komprimierte Datendatei komprimiert wurde, sodass die komprimierten Daten in der Datei zum Laden extrahiert werden können.
Beim Entladen von Daten wird die Datendatei mit dem angegebenen Komprimierungsalgorithmus komprimiert.

Werte:


Unterstützte Werte	Anmerkungen
`AUTO`	Beim Laden von Daten wird der Komprimierungsalgorithmus automatisch erkannt, mit Ausnahme von Brotli-komprimierten Dateien, die derzeit nicht automatisch erkannt werden können. Beim Entladen von Daten werden Dateien automatisch mit der Standardmethode gzip komprimiert.
`GZIP`
`BZ2`
`BROTLI`	Muss beim Laden/Entladen von Brotli-komprimierten Dateien angegeben werden.
`ZSTD`	Zstandard v0.8 (und höher) wird unterstützt.
`DEFLATE`	Deflate-komprimierte Dateien (mit zlib-Header, RFC1950).
`RAW_DEFLATE`	Raw Deflate-komprimierte Dateien (ohne Header, RFC1951).
`NONE`	Zeigt beim Laden von Daten an, dass die Dateien nicht komprimiert wurden. Zeigt beim Entladen von Daten an, dass die entladenen Dateien nicht komprimiert werden.

Standard:

AUTO

DATE_FORMAT = 'string' | AUTO

Verwendung:

Nur Laden von Daten

Definition:

Definiert das Format der Datums-Zeichenfolgenwerte in den Datendateien. Wenn ein Wert nicht angegeben oder AUTO ist, wird der Wert des Parameters DATE_INPUT_FORMAT verwendet.

Diese Dateiformatoption wird nur bei folgenden Aktionen angewendet:

Laden von JSON-Daten in separate Spalten unter Verwendung der Kopieroption MATCH_BY_COLUMN_NAME.
Laden von JSON-Daten in separate Spalten durch Angabe einer Abfrage in der COPY-Anweisung (d. h. COPY-Transformation).

Standard:

AUTO

TIME_FORMAT = 'string' | AUTO

Verwendung:

Nur Laden von Daten

Definition:

Definiert das Format der Uhrzeit-Zeichenfolgenwerte in den Datendateien. Wenn ein Wert nicht angegeben oder AUTO ist, wird der Wert des Parameters TIME_INPUT_FORMAT verwendet.

Diese Dateiformatoption wird nur bei folgenden Aktionen angewendet:

Laden von JSON-Daten in separate Spalten unter Verwendung der Kopieroption MATCH_BY_COLUMN_NAME.
Laden von JSON-Daten in separate Spalten durch Angabe einer Abfrage in der COPY-Anweisung (d. h. COPY-Transformation).

Standard:

AUTO

TIMESTAMP_FORMAT = string' | AUTO

Verwendung:

Nur Laden von Daten

Definition:

Definiert das Format der Zeitstempel-Zeichenfolgenwerte in den Datendateien. Wenn ein Wert nicht angegeben oder AUTO ist, wird der Wert des Parameters TIMESTAMP_INPUT_FORMAT verwendet.

Diese Dateiformatoption wird nur bei folgenden Aktionen angewendet:

Laden von JSON-Daten in separate Spalten unter Verwendung der Kopieroption MATCH_BY_COLUMN_NAME.
Laden von JSON-Daten in separate Spalten durch Angabe einer Abfrage in der COPY-Anweisung (d. h. COPY-Transformation).

Standard:

AUTO

BINARY_FORMAT = HEX | BASE64 | UTF8

Verwendung:

Nur Laden von Daten

Definition:

Definiert das Kodierungsformat für Binärzeichenfolgenwerte in den Datendateien. Die Option kann beim Laden von Daten in binäre Spalten einer Tabelle verwendet werden.

Diese Dateiformatoption wird nur bei folgenden Aktionen angewendet:

Laden von JSON-Daten in separate Spalten unter Verwendung der Kopieroption MATCH_BY_COLUMN_NAME.
Laden von JSON-Daten in separate Spalten durch Angabe einer Abfrage in der COPY-Anweisung (d. h. COPY-Transformation).

Standard:

HEX

TRIM_SPACE = TRUE | FALSE

Verwendung:

Nur Laden von Daten

Definition:

Boolescher Wert, der angibt, ob vorangestellte und nachstehende Leerzeichen aus Zeichenfolgen entfernt werden sollen.

Diese Dateiformatoption wird nur dann auf die nachfolgenden Aktionen angewendet, wenn JSON-Daten mit der Kopieroption MATCH_BY_COLUMN_NAME in separate Spalten geladen werden.

Standard:

FALSE

MULTI_LINE = TRUE | FALSE

Verwendung: Laden von Daten und externe Tabellen

Definition:: Boolescher Wert, der angibt, ob mehrere Zeilen erlaubt sind. Wenn MULTI_LINE auf FALSE eingestellt ist und eine neue Zeile innerhalb eines JSON-Datensatzes vorhanden ist, wird der Datensatz, der die neue Zeile enthält, als Fehler interpretiert.
Standard:: TRUE

NULL_IF = ( 'string1' [ , 'string2' , ... ] )

Verwendung:

Nur Laden von Daten

Definition:

Zeichenfolge, die zum Konvertieren in und von SQL NULL verwendet wird. Snowflake ersetzt diese Zeichenfolgen in der Datenladequelle durch SQL NULL. Um mehr als eine Zeichenfolge anzugeben, schließen Sie die Liste der Zeichenfolgen in Klammern ein und trennen Sie jeden Wert durch Kommas.

Diese Dateiformatoption wird nur dann auf die nachfolgenden Aktionen angewendet, wenn JSON-Daten mit der Kopieroption MATCH_BY_COLUMN_NAME in separate Spalten geladen werden.

Beachten Sie, dass Snowflake alle Instanzen des Wertes in einen NULL-Wert konvertiert, unabhängig vom Datentyp. Wenn z. B. 2 als Wert angegeben wird, werden alle Instanzen von 2 entweder in eine Zeichenfolge oder in eine Zahl konvertiert.

Beispiel:

NULL_IF = ('\N', 'NULL', 'NUL', '')

Beachten Sie, dass diese Option leere Zeichenfolgen enthalten kann.

Standard:

\N (das heißt, NULL)

FILE_EXTENSION = 'string' | NONE

Verwendung:: Nur Entladen von Daten
Definition:: Gibt die Erweiterung für Dateien an, die in einen Stagingbereich entladen werden. Akzeptiert jede Erweiterung. Der Benutzer ist dafür verantwortlich, eine Dateiendung anzugeben, die von jeder gewünschten Software oder dem gewünschten Dienst gelesen werden kann.
Standard:: Null, d. h. die Dateiendung wird durch den Formattyp bestimmt: .json[compression], wobei compression die durch das Komprimierungsverfahren hinzugefügte Erweiterung ist, wenn COMPRESSION gesetzt ist.

ENABLE_OCTAL = TRUE | FALSE

Verwendung:: Nur Laden von Daten
Definition:: Boolescher Wert, der das Parsen von Oktalzahlen ermöglicht.
Standard:: FALSE

ALLOW_DUPLICATE = TRUE | FALSE

Verwendung:: Laden von Daten und externe Tabellen
Definition:: Boolescher Wert, der angibt, dass doppelte Objektfeldnamen erlaubt sind (nur der letzte wird beibehalten).
Standard:: FALSE

STRIP_OUTER_ARRAY = TRUE | FALSE

Verwendung:: Laden von Daten und externe Tabellen
Definition:: Boolescher Wert, der den JSON-Parser anweist, die äußeren Klammern zu entfernen (d. h. [ ]).
Standard:: FALSE

STRIP_NULL_VALUES = TRUE | FALSE

Verwendung:

Laden von Daten und externe Tabellen

Definition:

Boolescher Wert, der den JSON-Parser anweist, Objektfelder oder Array-Elemente mit null-Werten zu entfernen. Zum Beispiel, wenn auf TRUE gesetzt:


Vorher	Nachher
`[null]`	`[]`
`[null,null,3]`	`[,,3]`
`{"a":null,"b":null,"c":123}`	`{"c":123}`
`{"a":[1,null,2],"b":{"x":null,"y":88}}`	`{"a":[1,,2],"b":{"y":88}}`

Standard:

FALSE

REPLACE_INVALID_CHARACTERS = TRUE | FALSE

Verwendung:

Laden von Daten und externe Tabellen

Definition:

Boolescher Wert, der angibt, ob ungültige UTF-8-Zeichen durch das Unicode-Ersetzungszeichen ersetzt werden sollen (�). Diese Option führt eine 1:1-Zeichenersetzung aus.

Werte:

Bei Einstellung auf TRUE ersetzt Snowflake ungültige UTF-8-Zeichen durch das Unicode-Ersetzungszeichen.

Bei Einstellung auf FALSE gibt die Ladeoperation einen Fehler aus, wenn eine ungültige UTF-8-Zeichencodierung erkannt wird.

Standard:

FALSE

IGNORE_UTF8_ERRORS = TRUE | FALSE

Verwendung:

Laden von Daten und externe Tabellen

Definition:

Boolescher Wert, der angibt, ob UTF-8-Codierungsfehler Fehlerbedingungen erzeugen. Dies ist eine alternative Syntax für REPLACE_INVALID_CHARACTERS.

Werte:

Wenn auf TRUE gesetzt, werden alle ungültigen UTF-8-Sequenzen stillschweigend durch das Unicodezeichen U+FFFD (d. h. „Ersetzungszeichen“) ersetzt.

Bei Einstellung auf FALSE gibt die Ladeoperation einen Fehler aus, wenn eine ungültige UTF-8-Zeichencodierung erkannt wird.

Standard:

FALSE

SKIP_BYTE_ORDER_MARK = TRUE | FALSE

Verwendung:

Nur Laden von Daten

Definition:

Wenn auf FALSE gesetzt, erkennt Snowflake alle BOM in Datendateien, was dazu führen kann, dass die BOM entweder einen Fehler verursacht oder in der ersten Spalte der Tabelle zusammengeführt wird.

Standard:

TRUE

TYPE = AVRO¶

Verwendung:

Nur Laden von Daten

Definition:

Beim Laden von Daten wird der aktuelle Komprimierungsalgorithmus für die Datendatei angegeben. Snowflake verwendet diese Option, um zu erkennen, wie eine bereits komprimierte Datendatei komprimiert wurde, sodass die komprimierten Daten in der Datei zum Laden extrahiert werden können.
Beim Entladen von Daten wird die Datendatei mit dem angegebenen Komprimierungsalgorithmus komprimiert.

Werte:


Unterstützte Werte	Anmerkungen
`AUTO`	Beim Laden von Daten wird der Komprimierungsalgorithmus automatisch erkannt, mit Ausnahme von Brotli-komprimierten Dateien, die derzeit nicht automatisch erkannt werden können. Beim Entladen von Daten werden Dateien automatisch mit der Standardmethode gzip komprimiert.
`GZIP`
`BROTLI`	Muss beim Laden/Entladen von Brotli-komprimierten Dateien angegeben werden.
`ZSTD`	Zstandard v0.8 (und höher) wird unterstützt.
`DEFLATE`	Deflate-komprimierte Dateien (mit zlib-Header, RFC1950).
`RAW_DEFLATE`	Raw Deflate-komprimierte Dateien (ohne Header, RFC1951).
`NONE`	Zeigt beim Laden von Daten an, dass die Dateien nicht komprimiert wurden. Zeigt beim Entladen von Daten an, dass die entladenen Dateien nicht komprimiert werden.

Standard:

AUTO.

Bemerkung

Wir empfehlen die Verwendung der Standardoption AUTO, da mit dieser sowohl die Datei- als auch die Codec-Komprimierung bestimmt wird. Die Angabe einer Komprimierungsoption bezieht sich auf die Komprimierung von Dateien, nicht auf die Komprimierung von Blöcken (Codecs).

TRIM_SPACE = TRUE | FALSE

Verwendung:

Nur Laden von Daten

Definition:

Boolescher Wert, der angibt, ob vorangestellte und nachstehende Leerzeichen aus Zeichenfolgen entfernt werden sollen.

Diese Dateiformatoption wird nur dann auf die nachfolgenden Aktionen angewendet, wenn Avro-Daten mit der Kopieroption MATCH_BY_COLUMN_NAME in separate Spalten geladen werden.

Standard:

FALSE

REPLACE_INVALID_CHARACTERS = TRUE | FALSE

Verwendung:

Laden von Daten und externe Tabellen

Definition:

Boolescher Wert, der angibt, ob ungültige UTF-8-Zeichen durch das Unicode-Ersetzungszeichen ersetzt werden sollen (�). Diese Option führt eine 1:1-Zeichenersetzung aus.

Werte:

Bei Einstellung auf TRUE ersetzt Snowflake ungültige UTF-8-Zeichen durch das Unicode-Ersetzungszeichen.

Bei Einstellung auf FALSE gibt die Ladeoperation einen Fehler aus, wenn eine ungültige UTF-8-Zeichencodierung erkannt wird.

Standard:

FALSE

NULL_IF = ( 'string1' [ , 'string2' , ... ] )

Verwendung:

Nur Laden von Daten

Definition:

Diese Dateiformatoption wird nur dann auf die nachfolgenden Aktionen angewendet, wenn Avro-Daten mit der Kopieroption MATCH_BY_COLUMN_NAME in separate Spalten geladen werden.

Beispiel:

NULL_IF = ('\N', 'NULL', 'NUL', '')

Beachten Sie, dass diese Option leere Zeichenfolgen enthalten kann.

Standard:

\N (das heißt, NULL)

TYPE = ORC¶

TRIM_SPACE = TRUE | FALSE

Verwendung:

Laden von Daten und externe Tabellen

Definition:

Boolescher Wert, der angibt, ob vorangestellte und nachstehende Leerzeichen aus Zeichenfolgen entfernt werden sollen.

Diese Dateiformatoption wird nur dann auf die nachfolgenden Aktionen angewendet, wenn Orc-Daten mit der Kopieroption MATCH_BY_COLUMN_NAME in separate Spalten geladen werden.

Standard:

FALSE

REPLACE_INVALID_CHARACTERS = TRUE | FALSE

Verwendung:

Laden von Daten und externe Tabellen

Definition:

Boolescher Wert, der angibt, ob ungültige UTF-8-Zeichen durch das Unicode-Ersetzungszeichen ersetzt werden sollen (�). Diese Option führt eine 1:1-Zeichenersetzung aus.

Werte:

Bei Einstellung auf TRUE ersetzt Snowflake ungültige UTF-8-Zeichen durch das Unicode-Ersetzungszeichen.

Bei Einstellung auf FALSE gibt die Ladeoperation einen Fehler aus, wenn eine ungültige UTF-8-Zeichencodierung erkannt wird.

Standard:

FALSE

NULL_IF = ( 'string1' [ , 'string2' , ... ] )

Verwendung:

Laden von Daten und externe Tabellen

Definition:

Diese Dateiformatoption wird nur dann auf die nachfolgenden Aktionen angewendet, wenn Orc-Daten mit der Kopieroption MATCH_BY_COLUMN_NAME in separate Spalten geladen werden.

Beispiel:

NULL_IF = ('\N', 'NULL', 'NUL', '')

Beachten Sie, dass diese Option leere Zeichenfolgen enthalten kann.

Standard:

\N (das heißt, NULL)

TYPE = PARQUET¶

COMPRESSION = AUTO | LZO | SNAPPY | NONE

Verwendung:: Entladen von Daten und externe Tabellen
Definition:

Gibt beim Entladen von Daten den Komprimierungsalgorithmus für Spalten in den Parquet-Dateien an.

Werte:


Unterstützte Werte	Anmerkungen
`AUTO`	Beim Laden von Daten wird der Komprimierungsalgorithmus automatisch erkannt. Unterstützt die folgenden Komprimierungsalgorithmen: Brotli, gzip, Lempel-Ziv-Oberhumer (LZO), LZ4, Snappy und Zstandard v0.8 (und höher). . Beim Entladen von Daten werden entladene Dateien standardmäßig mit dem Snappy-Algorithmus komprimiert.
`LZO`	Beim Entladen von Daten werden Dateien standardmäßig mit dem Snappy-Algorithmus komprimiert. Geben Sie diesen Wert an, wenn Daten in LZO-komprimierte Dateien entladen werden sollen.
`SNAPPY`	Beim Entladen von Daten werden Dateien standardmäßig mit dem Snappy-Algorithmus komprimiert. Sie können diesen Wert optional angeben.
`NONE`	Zeigt beim Laden von Daten an, dass die Dateien nicht komprimiert wurden. Zeigt beim Entladen von Daten an, dass die entladenen Dateien nicht komprimiert werden.

Standard:

AUTO

SNAPPY_COMPRESSION = TRUE | FALSE

Verwendung:

Nur Entladen von Daten


Unterstützte Werte	Anmerkungen
`AUTO`	Entladene Dateien werden standardmäßig mit dem Komprimierungsalgorithmus Snappy komprimiert.
`SNAPPY`	Kann angegeben werden, wenn Snappy-komprimierte Dateien entladen werden.
`NONE`	Zeigt beim Laden von Daten an, dass die Dateien nicht komprimiert wurden. Zeigt beim Entladen von Daten an, dass die entladenen Dateien nicht komprimiert werden.

Definition:

Boolescher Wert, der angibt, ob entladene Dateien mit dem SNAPPY-Algorithmus komprimiert werden.

Bemerkung

Veraltet. Verwenden Sie stattdessen COMPRESSION = SNAPPY.

Einschränkungen:: Wird nur für Datenentladevorgänge unterstützt.
Standard:: TRUE

BINARY_AS_TEXT = TRUE | FALSE

Verwendung:: Laden von Daten und externe Tabellen
Definition:: Boolescher Wert, der angibt, ob Spalten ohne definierten logischen Datentyp als UTF-8-Text interpretiert werden sollen. Wenn auf FALSE gesetzt, interpretiert Snowflake diese Spalten als Binärdaten.
Standard:: TRUE

Bemerkung

Snowflake empfiehlt, BINARY_AS_TEXT auf FALSE zu setzen, um mögliche Konvertierungsprobleme zu vermeiden.

TRIM_SPACE = TRUE | FALSE

Verwendung:

Nur Laden von Daten

Definition:

Boolescher Wert, der angibt, ob vorangestellte und nachstehende Leerzeichen aus Zeichenfolgen entfernt werden sollen.

Diese Dateiformatoption wird nur dann auf die nachfolgenden Aktionen angewendet, wenn Parquet-Daten mit der Kopieroption MATCH_BY_COLUMN_NAME in separate Spalten geladen werden.

Standard:

FALSE

USE_LOGICAL_TYPE = TRUE | FALSE

Verwendung:: Laden von Daten, Abfragen von Daten in Stagingdateien sowie Schemaerkennung.
Definition:: Boolescher Wert, der angibt, ob logische Parquet-Typen verwendet werden sollen. Mit dieser Dateiformatoption kann Snowflake beim Laden von Daten logische Parquet-Typen interpretieren. Weitere Informationen dazu finden Sie unter Definitionen für logische Parquet-Typen. Um logische Parquet-Typen zu aktivieren, setzen Sie USE_LOGICAL_TYPE beim Erstellen einer neuen Dateiformatoption auf TRUE.
Einschränkungen:: Nicht unterstützt für das Entladen von Daten.

USE_VECTORIZED_SCANNER = TRUE | FALSE

Verwendung:: Laden und Abfragen von Daten in Stagingdateien
Definition:: Boolescher Wert, der angibt, ob ein vektorisierter Scanner für das Laden von Parquet-Dateien verwendet werden soll.
Standard:: FALSE. In einem zukünftigen Verhaltensänderungs-Bundle wird der Standardwert TRUE sein.

Die Verwendung des vektorisierten Scanners kann die Latenz beim Laden von Parquet-Dateien erheblich reduzieren, da dieser Scanner gut für das Spaltenformat einer Parquet-Datei geeignet ist. Der Scanner lädt nur relevante Abschnitte der Parquet-Datei in den Arbeitsspeicher herunter, z. B. die Teilmenge der ausgewählten Spalten.

Wenn USE_VECTORIZED_SCANNER auf TRUE gesetzt ist, verhält sich der vektorisierte Scanner wie folgt:

Die Option BINARY_AS_TEXT wird immer als FALSE und die Option USE_LOGICAL_TYPE immer als TRUE behandelt, unabhängig davon, welcher Wert tatsächlich eingestellt ist.
Der vektorisierte Scanner unterstützt Parquet-Zuordnungstypen. Die Ausgabe beim Scannen eines Zuordnungstyps sieht folgendermaßen aus:
"my_map":
  {
   "k1": "v1",
   "k2": "v2"
  }
Der vektorisierte Scanner zeigt NULL-Werte in der Ausgabe an, wie das folgende Beispiel zeigt:
"person":
 {
  "name": "Adam",
  "nickname": null,
  "age": 34,
  "phone_numbers":
  [
    "1234567890",
    "0987654321",
    null,
    "6781234590"
  ]
  }
Der vektorisierte Scanner behandelt Zeit- und Zeitstempel-Werte wie folgt:

Parquet

Vektorisierter Scanner in Snowflake

TimeType(isAdjustedToUtc=True/False, unit=MILLIS/MICROS/NANOS)

TIME

TimestampType(isAdjustedToUtc=True, unit=MILLIS/MICROS/NANOS)

TIMESTAMP_LTZ

TimestampType(isAdjustedToUtc=False, unit=MILLIS/MICROS/NANOS)

TIMESTAMP_NTZ

INT96

TIMESTAMP_LTZ

Parquet	Vektorisierter Scanner in Snowflake
TimeType(isAdjustedToUtc=True/False, unit=MILLIS/MICROS/NANOS)	TIME
TimestampType(isAdjustedToUtc=True, unit=MILLIS/MICROS/NANOS)	TIMESTAMP_LTZ
TimestampType(isAdjustedToUtc=False, unit=MILLIS/MICROS/NANOS)	TIMESTAMP_NTZ
INT96	TIMESTAMP_LTZ

Wenn USE_VECTORIZED_SCANNER auf FALSE eingestellt ist, verhält sich der Scanner wie folgt:

Diese Option unterstützt keine Parquet-Zuordnungen. Die Ausgabe beim Scannen eines Zuordnungstyps sieht folgendermaßen aus:
"my_map":
 {
  "key_value":
  [
   {
          "key": "k1",
          "value": "v1"
      },
      {
          "key": "k2",
          "value": "v2"
      }
    ]
  }
Mit dieser Option werden die NULL-Werte nicht explizit in der Scan-Ausgabe angezeigt, wie das folgende Beispiel zeigt:
"person":
 {
  "name": "Adam",
  "age": 34
  "phone_numbers":
  [
   "1234567890",
   "0987654321",
   "6781234590"
  ]
 }
Diese Option behandelt Zeit- und Zeitstempel-Werte wie folgt:

Parquet

Wenn USE_LOGICAL_TYPE = TRUE

Wenn USE_LOGICAL_TYPE = FALSE

TimeType(isAdjustedToUtc=True/False, unit=MILLIS/MICROS)

TIME

TIME (Falls ConvertedType vorhanden)

INTEGER (Falls ConvertedType nicht vorhanden)

TimeType(isAdjustedToUtc=True/False, unit=NANOS)

TIME

INTEGER

TimestampType(isAdjustedToUtc=True, unit=MILLIS/MICROS)

TIMESTAMP_LTZ

TIMESTAMP_NTZ

TimestampType(isAdjustedToUtc=True, unit=NANOS)

TIMESTAMP_LTZ

INTEGER

TimestampType(isAdjustedToUtc=False, unit=MILLIS/MICROS)

TIMESTAMP_NTZ

TIMESTAMP_LTZ (Falls ConvertedType vorhanden)

INTEGER (Falls ConvertedType nicht vorhanden)

TimestampType(isAdjustedToUtc=False, unit=NANOS)

TIMESTAMP_NTZ

INTEGER

INT96

TIMESTAMP_NTZ

TIMESTAMP_NTZ

REPLACE_INVALID_CHARACTERS = TRUE | FALSE

Parquet	Wenn USE_LOGICAL_TYPE = TRUE	Wenn USE_LOGICAL_TYPE = FALSE
TimeType(isAdjustedToUtc=True/False, unit=MILLIS/MICROS)	TIME	TIME (Falls ConvertedType vorhanden) INTEGER (Falls ConvertedType nicht vorhanden)
TimeType(isAdjustedToUtc=True/False, unit=NANOS)	TIME	INTEGER
TimestampType(isAdjustedToUtc=True, unit=MILLIS/MICROS)	TIMESTAMP_LTZ	TIMESTAMP_NTZ
TimestampType(isAdjustedToUtc=True, unit=NANOS)	TIMESTAMP_LTZ	INTEGER
TimestampType(isAdjustedToUtc=False, unit=MILLIS/MICROS)	TIMESTAMP_NTZ	TIMESTAMP_LTZ (Falls ConvertedType vorhanden) INTEGER (Falls ConvertedType nicht vorhanden)
TimestampType(isAdjustedToUtc=False, unit=NANOS)	TIMESTAMP_NTZ	INTEGER
INT96	TIMESTAMP_NTZ	TIMESTAMP_NTZ

Verwendung:

Laden von Daten und externe Tabellen

Definition:

Boolescher Wert, der angibt, ob ungültige UTF-8-Zeichen durch das Unicode-Ersetzungszeichen ersetzt werden sollen (�). Diese Option führt eine 1:1-Zeichenersetzung aus.

Werte:

Bei Einstellung auf TRUE ersetzt Snowflake ungültige UTF-8-Zeichen durch das Unicode-Ersetzungszeichen.

Bei Einstellung auf FALSE gibt die Ladeoperation einen Fehler aus, wenn eine ungültige UTF-8-Zeichencodierung erkannt wird.

Standard:

FALSE

NULL_IF = ( 'string1' [ , 'string2' , ... ] )

Verwendung:

Nur Laden von Daten

Definition:

Diese Dateiformatoption wird nur dann auf die nachfolgenden Aktionen angewendet, wenn Parquet-Daten mit der Kopieroption MATCH_BY_COLUMN_NAME in separate Spalten geladen werden.

Beispiel:

NULL_IF = ('\N', 'NULL', 'NUL', '')

Beachten Sie, dass diese Option leere Zeichenfolgen enthalten kann.

Standard:

\N (das heißt, NULL)

TYPE = XML¶

Verwendung:

Nur Laden von Daten

Definition:

Beim Laden von Daten wird der aktuelle Komprimierungsalgorithmus für die Datendatei angegeben. Snowflake verwendet diese Option, um zu erkennen, wie eine bereits komprimierte Datendatei komprimiert wurde, sodass die komprimierten Daten in der Datei zum Laden extrahiert werden können.
Beim Entladen von Daten wird die Datendatei mit dem angegebenen Komprimierungsalgorithmus komprimiert.

Werte:


Unterstützte Werte	Anmerkungen
`AUTO`	Beim Laden von Daten wird der Komprimierungsalgorithmus automatisch erkannt, mit Ausnahme von Brotli-komprimierten Dateien, die derzeit nicht automatisch erkannt werden können. Beim Entladen von Daten werden Dateien automatisch mit der Standardmethode gzip komprimiert.
`GZIP`
`BZ2`
`BROTLI`	Muss beim Laden/Entladen von Brotli-komprimierten Dateien angegeben werden.
`ZSTD`	Zstandard v0.8 (und höher) wird unterstützt.
`DEFLATE`	Deflate-komprimierte Dateien (mit zlib-Header, RFC1950).
`RAW_DEFLATE`	Raw Deflate-komprimierte Dateien (ohne Header, RFC1951).
`NONE`	Zeigt beim Laden von Daten an, dass die Dateien nicht komprimiert wurden. Zeigt beim Entladen von Daten an, dass die entladenen Dateien nicht komprimiert werden.

Standard:

AUTO

IGNORE_UTF8_ERRORS = TRUE | FALSE

Verwendung:

Laden von Daten und externe Tabellen

Definition:

Boolescher Wert, der angibt, ob UTF-8-Codierungsfehler Fehlerbedingungen erzeugen. Dies ist eine alternative Syntax für REPLACE_INVALID_CHARACTERS.

Werte:

Wenn auf TRUE gesetzt, werden alle ungültigen UTF-8-Sequenzen stillschweigend durch das Unicodezeichen U+FFFD (d. h. „Ersetzungszeichen“) ersetzt.

Bei Einstellung auf FALSE gibt die Ladeoperation einen Fehler aus, wenn eine ungültige UTF-8-Zeichencodierung erkannt wird.

Standard:

FALSE

PRESERVE_SPACE = TRUE | FALSE

Verwendung:: Nur Laden von Daten
Definition:: Boolescher Wert, der angibt, ob der XML-Parser führende und nachstehende Leerzeichen im Elementinhalt beibehält.
Standard:: FALSE

STRIP_OUTER_ELEMENT = TRUE | FALSE

Verwendung:: Nur Laden von Daten
Definition:: Boolescher Wert, der angibt, ob der XML-Parser das äußere XML-Element entfernt und Elemente der zweiten Ebene als separate Dokumente anzeigt.
Standard:: FALSE

DISABLE_AUTO_CONVERT = TRUE | FALSE

Verwendung:: Nur Laden von Daten
Definition:: Boolescher Wert, der angibt, ob der XML-Parser die automatische Konvertierung von numerischen und booleschen Werten von Text in native Darstellung deaktiviert.
Standard:: FALSE

REPLACE_INVALID_CHARACTERS = TRUE | FALSE

Verwendung:

Laden von Daten und externe Tabellen

Definition:

Boolescher Wert, der angibt, ob ungültige UTF-8-Zeichen durch das Unicode-Ersetzungszeichen ersetzt werden sollen (�). Diese Option führt eine 1:1-Zeichenersetzung aus.

Werte:

Bei Einstellung auf TRUE ersetzt Snowflake ungültige UTF-8-Zeichen durch das Unicode-Ersetzungszeichen.

Bei Einstellung auf FALSE gibt die Ladeoperation einen Fehler aus, wenn eine ungültige UTF-8-Zeichencodierung erkannt wird.

Standard:

FALSE

SKIP_BYTE_ORDER_MARK = TRUE | FALSE

Verwendung:

Nur Laden von Daten

Definition:

Boolescher Wert, der angibt, ob eine BOM (Byte-Reihenfolgemarke) in einer Eingabedatei übersprungen werden soll. Eine BOM ist ein Zeichencode am Anfang einer Datendatei, der die Bytefolge und die Codierungsform definiert.

Wenn auf FALSE gesetzt, erkennt Snowflake alle BOM in Datendateien, was dazu führen kann, dass die BOM entweder einen Fehler verursacht oder in der ersten Spalte der Tabelle zusammengeführt wird.

Standard:

TRUE

Anforderungen an die Zugriffssteuerung¶

Eine Rolle, die zur Ausführung dieser Operation verwendet wird, muss mindestens die folgenden Berechtigungen haben:


Berechtigung	Objekt	Anmerkungen
CREATE FILE FORMAT	Schema
OWNERSHIP	Dateiformat	Um ein temporäres Objekt zu erstellen, das denselben Namen hat wie das bereits im Schema vorhandene Objekt, muss der verwendeten Rolle die Berechtigung OWNERSHIP für das Objekt erteilt worden sein oder die Rolle muss diese Berechtigung geerbt haben. Erforderlich für die Ausführung einer CREATE OR ALTER FILE FORMAT-Anweisung für ein bestehendes Dateiformat. Note that in a managed access schema, only the schema owner (i.e. the role with the OWNERSHIP privilege on the schema) or a role with the MANAGE GRANTS privilege can grant or revoke privileges on objects in the schema, including future grants.

Für das Ausführen von Operationen auf einem Objekt in einem Schema ist mindestens eine Berechtigung für die übergeordnete Datenbank und mindestens eine Berechtigung für das übergeordnete Schema erforderlich.

Eine Anleitung zum Erstellen einer kundenspezifischen Rolle mit einer bestimmten Gruppe von Berechtigungen finden Sie unter Erstellen von kundenspezifischen Rollen.

Allgemeine Informationen zu Rollen und Berechtigungen zur Durchführung von SQL-Aktionen auf sicherungsfähigen Objekten finden Sie unter Übersicht zur Zugriffssteuerung.

Nutzungshinweise zu CREATE OR ALTER FILEFORMAT¶

Es gelten alle Einschränkungen des Befehls ALTER FILE FORMAT.
Sie können ein TEMP FILE FORMAT nicht in ein reguläres FILE FORMAT umwandeln und umgekehrt.
Sie können die Eigenschaft TYPE nicht ändern.

Nutzungshinweise¶

Vorsicht

Durch das Neuherstellen eines Dateiformats (mithilfe von CREATE OR REPLACE FILEFORMAT) wird die Zuordnung zwischen dem Dateiformat und jeder externen Tabelle, die darauf verweist, aufgehoben. Grund ist, dass eine externe Tabelle mit einem Dateiformat verknüpft ist, wobei anstelle des Namens des Dateiformats eine ausgeblendete ID verwendet wird. Im Hintergrund löscht die CREATE OR REPLACE-Syntax das Objekt und erstellt es mit einer anderen ausgeblendeten ID neu.

Wenn Sie ein Dateiformat neu erstellen müssen, nachdem dieser mit einer oder mehreren externen Tabellen verknüpft wurde, müssen Sie jede der externen Tabellen neu erstellen (mit CREATE OR REPLACE EXTERNAL TABLE), um die Zuordnung wiederherzustellen. Rufen Sie die Funktion GET_DDL auf, um eine DDL-Anweisung abzurufen, mit der jede der externen Tabellen neu erstellt wird.

Widersprüchliche Dateiformatwerte in einer SQL-Anweisung erzeugen einen Fehler. Ein Konflikt tritt auf, wenn die gleiche Option mehrfach mit unterschiedlichen Werten angegeben wird (z. B. ...TYPE = 'CSV' ... TYPE = 'JSON'...).
Metadaten:

Achtung

Kunden müssen sicherstellen, dass bei der Nutzung des Snowflake-Dienstes keine personenbezogenen Daten (außer für ein Objekt „User“), sensible Daten, exportkontrollierte Daten oder andere regulierte Daten als Metadaten eingegeben werden. Weitere Informationen dazu finden Sie unter Metadatenfelder in Snowflake.

Die Klauseln OR REPLACE und IF NOT EXISTS schließen sich gegenseitig aus. Sie können nicht beide in der gleichen Anweisung verwendet werden.
CREATE OR REPLACE <Objekt>-Anweisungen sind atomar. Das heißt, wenn ein Objekt ersetzt wird, erfolgt das Löschen des alten Objekts und das Erstellen des neuen Objekts in einer einzigen Transaktion.

Beispiele¶

Erstellen Sie ein CSV-Dateiformat namens my_csv_format, das alle standardmäßigen CSV-Formatoptionen verwendet:

CREATE OR REPLACE FILE FORMAT my_csv_format
  TYPE = CSV
  COMMENT = 'my_file_format';

Ändern Sie my_csv_format so, dass die folgenden Regeln für Datendateien definiert werden und der Kommentar zurücksetzt wird:

Felder werden durch das Pipe-Zeichen (|) begrenzt.
Dateien enthalten eine einzige Kopfzeile, die übersprungen wird.
Die Zeichenfolgen NULL und null werden durch NULL-Werte ersetzt.
Leere Zeichenfolgen werden als NULL-Werte interpretiert.
Dateien werden mit der GZIP-Komprimierung komprimiert/dekomprimiert.

CREATE OR ALTER FILE FORMAT my_csv_format
  TYPE = CSV
  FIELD_DELIMITER = '|'
  SKIP_HEADER = 1
  NULL_IF = ('NULL', 'null')
  EMPTY_FIELD_AS_NULL = true
  COMPRESSION = gzip;

Erstellen Sie ein JSON-Dateiformat namens my_json_format, das alle standardmäßigen JSON-Formatoptionen verwendet:

CREATE OR REPLACE FILE FORMAT my_json_format
  TYPE = JSON;

Erstellen Sie ein PARQUET-Dateiformat namens my_parquet_format, das anstelle physischer oder älterer konvertierter Typen logische PARQUET-Typen verwendet:

CREATE OR REPLACE FILE FORMAT my_parquet_format
  TYPE = PARQUET
  USE_VECTORIZED_SCANNER = TRUE
  USE_LOGICAL_TYPE = TRUE;

CREATE FILE FORMAT¶

Syntax¶

Syntaxvariante¶

CREATE OR ALTER FILE FORMAT¶

Erforderliche Parameter¶

Optionale Parameter¶

Formattypoptionen (formatTypeOptions)¶

TYPE = CSV¶

TYPE = JSON¶

TYPE = AVRO¶

TYPE = ORC¶

TYPE = PARQUET¶

TYPE = XML¶

Anforderungen an die Zugriffssteuerung¶

Nutzungshinweise zu CREATE OR ALTER FILEFORMAT¶

Nutzungshinweise¶

Beispiele¶

Formattypoptionen (`formatTypeOptions`)¶