Hinweise zum Tabellenentwurf¶

Unter diesem Thema werden bewährte Verfahren, allgemeine Richtlinien und wichtige Hinweise zum Entwerfen und Verwalten von Tabellen bereitgestellt.

Datum/Uhrzeit-Datentypen für Spalten¶

Bei der Definition von Spalten, die Datumsangaben oder Zeitstempel enthalten, empfiehlt Snowflake, anstelle eines Zeichendatentyps einen Datums- oder Zeitstempel-Datentyp zu verwenden. Snowflake speichert DATE- und TIMESTAMP-Daten effizienter als VARCHAR-Daten, wodurch die Abfrageleistung verbessert wird. Wählen Sie einen geeigneten Datums- oder Zeitstempel-Datentyp aus, abhängig von der erforderlichen Granularität.

Einschränkungen für die referenzielle Integrität¶

Wenn sie auf Standardtabellen erstellt werden, sind referenzielle Integritätseinschränkungen, wie sie durch Primärschlüssel/Fremdschlüssel-Beziehungen definiert sind, informativen Charakter; sie werden nicht erzwungen. NOT NULL-Einschränkungen werden durchgesetzt, andere Einschränkungen jedoch nicht. Allerdings werden Einschränkungen auf Hybridtabellen durchgesetzt; siehe Übersicht über Einschränkungen.

Im Allgemeinen liefern Einschränkungen wertvolle Metadaten. Primär- und Fremdschlüssel ermöglichen es Ihrem Projektteam, das Schemadesign zu verstehen und die Beziehungen zwischen den Tabellen und ihren Spalten zu erkennen.

Darüber hinaus importieren die meisten Business Intelligence-Tools (BI) und Visualisierungstools die Fremdschlüsseldefinitionen mit den Tabellen und erstellen die korrekten Join-Bedingungen. Dieser Ansatz spart Zeit und ist potenziell weniger fehleranfällig, da niemand raten muss, wie die Tabellen mit Join verknüpft werden können, und das Tool manuell konfiguriert werden muss. Durch das Verknüpfen über Primär- und Fremdschlüssel wird auch die Integrität des Entwurfs sichergestellt, da die Verknüpfungen nicht unterschiedlichen Entwicklern zur Interpretation überlassen werden. Einige BI- und Visualisierungstools nutzen auch Einschränkungsinformationen, um Abfragen effizienter umzuschreiben, z. B. durch Beseitigen von Join.

Geben Sie eine Einschränkung an, wenn Sie eine Tabelle mit den Befehlen CREATE | ALTER TABLE … CONSTRAINT erstellen oder ändern.

Im folgenden Beispiel definiert die Anweisung CREATE TABLE für die zweite Tabelle (salesorders) eine Out-of-Line-Fremdschlüsseleinschränkung, die auf eine Spalte in der ersten Tabelle (salespeople) verweist:

CREATE OR REPLACE TABLE salespeople (
  sp_id INT NOT NULL UNIQUE,
  name VARCHAR DEFAULT NULL,
  region VARCHAR,
  constraint pk_sp_id PRIMARY KEY (sp_id)
);
CREATE OR REPLACE TABLE salesorders (
  order_id INT NOT NULL UNIQUE,
  quantity INT DEFAULT NULL,
  description VARCHAR,
  sp_id INT NOT NULL UNIQUE,
  constraint pk_order_id PRIMARY KEY (order_id),
  constraint fk_sp_id FOREIGN KEY (sp_id) REFERENCES salespeople(sp_id)
);

from snowflake.core import CreateMode
from snowflake.core.table import ForeignKey, PrimaryKey, Table, TableColumn, UniqueKey

my_table = Table(
  name="salespeople",
  columns=[
      TableColumn(name="sp_id", datatype="int", nullable=False, constraints=[UniqueKey(name='unk')]),
      TableColumn(name="name", datatype="varchar", default="NULL"),
      TableColumn(name="region", datatype="varchar")
  ],
  constraints=[PrimaryKey(name="pk_sp_id", column_names=["sp_id"])]
)
root.databases["<database>"].schemas["<schema>"].tables.create(my_table, mode=CreateMode.or_replace)

my_table = Table(
  name="salesorders",
  columns=[
      TableColumn(name="order_id", datatype="int", nullable=False, constraints=[UniqueKey(name='unk')]),
      TableColumn(name="quantity", datatype="int", default="NULL"),
      TableColumn(name="description", datatype="varchar"),
      TableColumn(name="sp_id", datatype="int", nullable=False, constraints=[UniqueKey(name='unk')])
  ],
  constraints=[
      ForeignKey(referenced_table_name = "salespeople", referenced_column_names=["sp_id"], name="fk_sp_id", column_names=["sp_id"]),
      PrimaryKey(name="pk_order_id", column_names=["order_id"])
  ]
)
root.databases["<database>"].schemas["<schema>"].tables.create(my_table, mode=CreateMode.or_replace)

Fragen Sie die Funktion GET_DDL ab, um eine DDL-Anweisung abzurufen, durch deren Ausführung die angegebene Tabelle neu erstellt wird. Die Anweisung enthält die Einschränkungen, die aktuell für eine Tabelle festgelegt sind.

Beispiel:

SELECT GET_DDL('TABLE', 'mydb.public.salesorders');

+-----------------------------------------------------------------------------------------------------+
| GET_DDL('TABLE', 'MYDB.PUBLIC.SALESORDERS')                                                         |
|-----------------------------------------------------------------------------------------------------|
| create or replace TABLE SALESORDERS (                                                               |
|   ORDER_ID NUMBER(38,0) NOT NULL,                                                                   |
|   QUANTITY NUMBER(38,0),                                                                            |
|   DESCRIPTION VARCHAR(16777216),                                                                    |
|   SP_ID NUMBER(38,0) NOT NULL,                                                                      |
|   unique (SP_ID),                                                                                   |
|   constraint PK_ORDER_ID primary key (ORDER_ID),                                                    |
|   constraint FK_SP_ID foreign key (SP_ID) references MYDATABASE.PUBLIC.SALESPEOPLE(SP_ID)           |
| );                                                                                                  |
+-----------------------------------------------------------------------------------------------------+

Rufen Sie alternativ eine Liste aller Tabelleneinschränkungen nach Schema (oder über alle Schemas in einer Datenbank) ab, indem Sie Ansicht TABLE_CONSTRAINTS im Information Schema abfragen.

Beispiel:

SELECT table_name, constraint_type, constraint_name
  FROM mydb.INFORMATION_SCHEMA.TABLE_CONSTRAINTS
  WHERE constraint_schema = 'PUBLIC'
  ORDER BY table_name;

+-------------+-----------------+-----------------------------------------------------+
| TABLE_NAME  | CONSTRAINT_TYPE | CONSTRAINT_NAME                                     |
|-------------+-----------------+-----------------------------------------------------|
| SALESORDERS | UNIQUE          | SYS_CONSTRAINT_fce2257e-c343-4e66-9bea-fc1c041b00a6 |
| SALESORDERS | FOREIGN KEY     | FK_SP_ID                                            |
| SALESORDERS | PRIMARY KEY     | PK_ORDER_ID                                         |
| SALESORDERS | UNIQUE          | SYS_CONSTRAINT_bf90e2b3-fd4a-4764-9576-88fb487fe989 |
| SALESPEOPLE | PRIMARY KEY     | PK_SP_ID                                            |
+-------------+-----------------+-----------------------------------------------------+

Verwendung eines Gruppierungsschlüssels¶

Für die meisten Tabellen ist die Angabe eines Gruppierungsschlüssels nicht erforderlich. Snowflake führt die automatische Optimierung über die Optimierungs-Engine und durch Mikropartitionierung durch. In vielen Fällen werden Daten nach Datum oder Zeitstempel geladen und in Mikropartitionen organisiert und in derselben Dimension abgefragt.

Wann sollte ein Gruppierungsschlüssel für eine Tabelle angeben werden? Beachten Sie zunächst, dass das Clustern einer kleinen Tabelle die Abfrageleistung normalerweise nicht wesentlich verbessert.

In folgenden Fällen können Sie bei größeren Datasets in Betracht ziehen, einen Gruppierungsschlüssel für eine Tabelle anzugeben:

Die Reihenfolge, in der die Daten geladen werden, stimmt nicht mit der Dimension überein, anhand der sie am häufigsten abgefragt werden (z. B. werden die Daten anhand des Datums geladen, die Berichte jedoch anhand der ID gefiltert). Wenn Ihre vorhandenen Skripte oder Berichte die Daten nach Datum und ID (und möglicherweise nach einer dritten oder vierten Spalte) abfragen, können Sie durch das Erstellen eines mehrspaltigen Gruppierungsschlüssels einige Leistungsverbesserungen erzielen.
Mit Query Profile wird festgestellt, dass ein erheblicher Prozentsatz der Gesamtdauer typischer Abfragen auf der Tabelle für das Scannen verbraucht wird. Dies gilt für Abfragen, die nach einer oder mehreren bestimmten Spalten filtern.

Hinweis: Beim Reclustering werden vorhandene Daten in einer anderen Reihenfolge geschrieben. Die vorherige Reihenfolge wird 7 Tage lang gespeichert, um Fail-safe-Schutz zu bieten. Beim Reclustering einer Tabelle entstehen Computekosten, die mit der Menge der neu geordneten Daten korrelieren.

Weitere Informationen dazu finden Sie unter Automatic Clustering.

Angabe der Spaltenlängen¶

Snowflake komprimiert die Spaltendaten effektiv. Das Erstellen von Spalten, die größer als nötig sind, hat daher nur minimale Auswirkungen auf die Größe der Datentabellen. Ebenso gibt es keinen Unterschied in der Abfrageleistung zwischen einer Spalte mit Angabe der maximalen Länge (z. B. VARCHAR(134217728)) und einer geringeren Genauigkeit.

Wenn die Größe Ihrer Spaltendaten vorhersehbar ist, empfiehlt Snowflake das Definieren einer geeigneten Spaltenlänge aus den folgenden Gründen:

Datenladeoperationen erkennen mit höherer Wahrscheinlichkeit Probleme wie falsch geladene Spalten, z. B. eine 50-stellige Zeichenfolge, die irrtümlicherweise in eine VARCHAR(10)-Spalte geladen wurde. Solche Probleme führen zu Fehlern.
Wenn die Spaltenlänge nicht angegeben ist, kann es vorkommen, dass einige Tools von Drittanbietern als Größe den maximalen Wert verwenden. Dies kann zu einer erhöhten Speichernutzung des Clients oder zu einem ungewöhnlichen Verhalten führen.

Speichern von semistrukturierten Daten in einer VARIANT-Spalte vs. Vereinfachen der geschachtelten Struktur¶

Wenn Sie sich noch nicht sicher sind, welche Arten von Operationen Sie mit Ihren semistrukturierten Daten durchführen werden, empfiehlt Snowflake, diese zunächst in einer VARIANT-Spalte zu speichern. Für Daten, die meist regulär sind und nur native Typen (Zeichenfolgen und ganze Zahlen) verwenden, sind die Speicheranforderungen und die Abfrageleistung bei Operationen auf relationalen Daten und Daten in einer VARIANT-Spalte sehr ähnlich.

Für ein besseres Verkürzen und einen geringeren Speicherverbrauch empfiehlt Snowflake, Ihre Objekt- und Schlüsseldaten in separate relationale Spalten zu vereinfachen, wenn Ihre semistrukturierten Daten Folgendes enthalten:

Datumsangaben und Zeitstempel, insbesondere wenn diese nicht ISO-8601-konform sind, als Zeichenfolgenwerte
Zahlen innerhalb von Zeichenfolgen
Arrays

Nicht-native Werte wie Datum und Zeitstempel werden beim Laden in eine VARIANT-Spalte als Zeichenfolgen gespeichert, sodass Operationen mit diesen Werten langsamer sein können und auch mehr Platz beanspruchen als bei der Speicherung in einer relationalen Spalte mit dem entsprechenden Datentyp.

Wenn Sie Ihre Anwendungsfälle für die Daten kennen, führen Sie Tests an einem typischen Dataset durch. Laden Sie das Dataset in die VARIANT-Spalte einer Tabelle. Verwenden Sie die Funktion FLATTEN, um die Objekte und Schlüssel, die Sie abfragen möchten, in eine separate Tabelle zu extrahieren. Führen Sie einige typische Abfragen für beide Tabellen aus, um festzustellen, welche Struktur die beste Performance bietet.

Konvertieren einer permanenten Tabelle in eine transiente Tabelle oder umgekehrt¶

Derzeit ist es nicht möglich, eine permanente Tabelle mit dem Befehl ALTER TABLE in eine transiente Tabelle zu ändern. Die Eigenschaft TRANSIENT wird bei der Tabellenerstellung festgelegt und kann nicht geändert werden.

Außerdem ist es derzeit nicht möglich, eine transiente Tabelle direkt in eine permanente Tabelle zu ändern.

Um eine bestehende permanente Tabelle in eine transiente Tabelle (oder umgekehrt) umzuwandeln und dabei Daten und andere Eigenschaften wie Spaltenvorgaben und erteilte Berechtigungen beizubehalten, können Sie eine neue Tabelle über eine der Weboberflächen erstellen, wie in den folgenden Beispielen beschrieben:

Verwenden Sie die Klausel COPY GRANTS des Befehls CREATE TABLE:

CREATE TRANSIENT TABLE my_new_table LIKE my_old_table COPY GRANTS;

Verwenden Sie die Argumente like_table und copy_grants der Methode TableCollection. create:

from snowflake.core.table import Table

my_table = Table(
  name="my_new_table",
  kind="TRANSIENT"
)
tables = root.databases["<database>"].schemas["<schema>"].tables
tables.create(my_table, like_table="my_old_table", copy_grants=True)

Verwenden Sie dann den Befehl INSERT, um die Daten zu kopieren:

INSERT INTO my_new_table SELECT * FROM my_old_table;

Wenn Sie alle Daten, aber nicht die gewährten Berechtigungen und andere Eigenschaften erhalten möchten, können Sie eine der folgenden Weboberflächen verwenden:

Verwenden Sie eine CREATE TABLE AS SELECT (CTAS)-Anweisung:

CREATE TRANSIENT TABLE my_transient_table AS SELECT * FROM mytable;

Verwenden Sie das Argument as_select der Methode TableCollection. create:

from snowflake.core.table import Table

my_table = Table(
  name="my_transient_table",
  kind="TRANSIENT"
)
tables = root.databases["<database>"].schemas["<schema>"].tables
tables.create(my_table, as_select="SELECT * FROM mytable")

Eine andere Möglichkeit, eine Kopie einer Tabelle zu erstellen (aber den Lebenszyklus von permanent auf transient zu ändern), besteht darin, die Tabelle mit einer der folgenden Weboberflächen zu klonen:

Verwenden Sie die Klausel CLONE des Befehls CREATE TABLE:

CREATE TRANSIENT TABLE foo CLONE bar COPY GRANTS;

Verwenden Sie das Argument clone_table der Methode TableCollection. create:

from snowflake.core.table import Table

my_table = Table(
  name="foo",
  kind="TRANSIENT"
)
tables = root.databases["<database>"].schemas["<schema>"].tables
tables.create(my_table, clone_table="bar", copy_grants=True)

Alte Partitionen sind nicht betroffen (sie werden nicht transient), aber neue Partitionen, die dem Klon hinzugefügt werden, folgen dem transienten Lebenszyklus.

Eine transiente Tabelle können Sie nicht in eine permanente Tabelle klonen.