Remarques relatives à la conception de table¶

Ce chapitre fournit des bonnes pratiques, des lignes directrices générales et des remarques importantes sur la conception et la gestion de tables.

Types de données date/heure pour les colonnes¶

Lorsque vous définissez des colonnes pour qu’elles contiennent des dates ou des horodatages, Snowflake recommande de choisir un type de donnée « Date » ou « Horodatage » plutôt qu’un type de données « Caractère ». Snowflake stocke les données DATE et TIMESTAMP plus efficacement que VARCHAR, ce qui permet d’obtenir des performances de requête plus élevées. Sélectionnez un type de données d’horodatage ou de date approprié en fonction du niveau de granularité requis.

Contraintes d’intégrité référentielle¶

Lorsqu’elles sont créées sur des tables standard, les contraintes d’intégrité référentielle, telles que définies par les relations clé primaire/clé étrangère, sont informatives ; elles ne sont pas appliquées. Les contraintes NOT NULL sont appliquées, mais d’autres ne le sont pas. Toutefois, les contraintes sur les tables hybrides sont appliquées. Voir Aperçu des contraintes.

En général, les contraintes fournissent des métadonnées précieuses. Les clés primaires et étrangères permettent à votre équipe de projet de comprendre la conception du schéma et de voir les relations entre les tables et leurs colonnes.

De plus, la plupart des outils de Business Intelligence (BI) et de visualisation importent les définitions de clé étrangère avec les tables, et créent les conditions de liaison adéquates. Cette approche permet de gagner du temps, et de réduire le risque d’erreur par rapport à devoir deviner la façon dont les tables sont liées et à configurer manuellement l’outil. Le fait de baser les liaisons sur les clés primaires et étrangères assure l’intégrité de la conception, car les liaisons (ou dites « jointures ») ne sont pas laissées à l’interprétation des différents développeurs. Certains outils de BI et de visualisation exploitent également les informations de contrainte pour réécrire les requêtes plus efficacement, par exemple avec l’élimination de liaison.

Spécifiez une contrainte lors de la création ou de la modification d’une table à l’aide des commandes CREATE | ALTER TABLE … CONSTRAINT.

Dans l’exemple suivant, l’instruction CREATE TABLE de la deuxième table (salesorders) définit une contrainte de clé étrangère hors ligne qui fait référence à une colonne de la première table (salespeople) :

CREATE OR REPLACE TABLE salespeople (
  sp_id INT NOT NULL UNIQUE,
  name VARCHAR DEFAULT NULL,
  region VARCHAR,
  constraint pk_sp_id PRIMARY KEY (sp_id)
);
CREATE OR REPLACE TABLE salesorders (
  order_id INT NOT NULL UNIQUE,
  quantity INT DEFAULT NULL,
  description VARCHAR,
  sp_id INT NOT NULL UNIQUE,
  constraint pk_order_id PRIMARY KEY (order_id),
  constraint fk_sp_id FOREIGN KEY (sp_id) REFERENCES salespeople(sp_id)
);

from snowflake.core import CreateMode
from snowflake.core.table import ForeignKey, PrimaryKey, Table, TableColumn, UniqueKey

my_table = Table(
  name="salespeople",
  columns=[
      TableColumn(name="sp_id", datatype="int", nullable=False, constraints=[UniqueKey(name='unk')]),
      TableColumn(name="name", datatype="varchar", default="NULL"),
      TableColumn(name="region", datatype="varchar")
  ],
  constraints=[PrimaryKey(name="pk_sp_id", column_names=["sp_id"])]
)
root.databases["<database>"].schemas["<schema>"].tables.create(my_table, mode=CreateMode.or_replace)

my_table = Table(
  name="salesorders",
  columns=[
      TableColumn(name="order_id", datatype="int", nullable=False, constraints=[UniqueKey(name='unk')]),
      TableColumn(name="quantity", datatype="int", default="NULL"),
      TableColumn(name="description", datatype="varchar"),
      TableColumn(name="sp_id", datatype="int", nullable=False, constraints=[UniqueKey(name='unk')])
  ],
  constraints=[
      ForeignKey(referenced_table_name = "salespeople", referenced_column_names=["sp_id"], name="fk_sp_id", column_names=["sp_id"]),
      PrimaryKey(name="pk_order_id", column_names=["order_id"])
  ]
)
root.databases["<database>"].schemas["<schema>"].tables.create(my_table, mode=CreateMode.or_replace)

Interrogez la fonction GET_DDL pour récupérer une instruction DDL qui pourrait être exécutée pour recréer la table spécifiée. L’instruction contient les contraintes actuellement définies sur une table.

Par exemple :

SELECT GET_DDL('TABLE', 'mydb.public.salesorders');

+-----------------------------------------------------------------------------------------------------+
| GET_DDL('TABLE', 'MYDB.PUBLIC.SALESORDERS')                                                         |
|-----------------------------------------------------------------------------------------------------|
| create or replace TABLE SALESORDERS (                                                               |
|   ORDER_ID NUMBER(38,0) NOT NULL,                                                                   |
|   QUANTITY NUMBER(38,0),                                                                            |
|   DESCRIPTION VARCHAR(16777216),                                                                    |
|   SP_ID NUMBER(38,0) NOT NULL,                                                                      |
|   unique (SP_ID),                                                                                   |
|   constraint PK_ORDER_ID primary key (ORDER_ID),                                                    |
|   constraint FK_SP_ID foreign key (SP_ID) references MYDATABASE.PUBLIC.SALESPEOPLE(SP_ID)           |
| );                                                                                                  |
+-----------------------------------------------------------------------------------------------------+

Vous pouvez également récupérer une liste de toutes les contraintes de table par schéma (ou à travers tous les schémas d’une base de données) en interrogeant la vue Vue TABLE_CONSTRAINTS dans Information Schema.

Par exemple :

SELECT table_name, constraint_type, constraint_name
  FROM mydb.INFORMATION_SCHEMA.TABLE_CONSTRAINTS
  WHERE constraint_schema = 'PUBLIC'
  ORDER BY table_name;

+-------------+-----------------+-----------------------------------------------------+
| TABLE_NAME  | CONSTRAINT_TYPE | CONSTRAINT_NAME                                     |
|-------------+-----------------+-----------------------------------------------------|
| SALESORDERS | UNIQUE          | SYS_CONSTRAINT_fce2257e-c343-4e66-9bea-fc1c041b00a6 |
| SALESORDERS | FOREIGN KEY     | FK_SP_ID                                            |
| SALESORDERS | PRIMARY KEY     | PK_ORDER_ID                                         |
| SALESORDERS | UNIQUE          | SYS_CONSTRAINT_bf90e2b3-fd4a-4764-9576-88fb487fe989 |
| SALESPEOPLE | PRIMARY KEY     | PK_SP_ID                                            |
+-------------+-----------------+-----------------------------------------------------+

Quand définir une clé de clustering ?¶

Spécifier une clé de clustering n’est pas nécessaire pour la plupart des tables. Snowflake effectue un réglage automatique via le moteur d’optimisation et le micro-partitionnement. Dans de nombreux cas, les données sont chargées et organisées en micropartitions par date ou horodatage, et sont interrogées selon la même dimension.

Quand est-il conseillé de spécifier une clé de clustering pour une table ? Tout d’abord, sachez que le clustering d’une petite table n’améliore généralement pas les performances de requête de manière significative.

Pour les ensembles de données plus importants, vous pouvez spécifier une clé de clustering pour une table dans les cas suivants :

L’ordre dans lequel les données sont chargées ne correspond pas à la dimension par laquelle elles sont le plus souvent interrogées. Par exemple, les données sont chargées par date, mais les rapports filtrent les données par ID. Si vos scripts ou rapports existants interrogent les données par date :emph:`et ` ID (et éventuellement une troisième ou quatrième colonne), vous pouvez voir une certaine amélioration des performances en créant une clé de clustering multi-colonnes.
Le profil de requête indique qu’un pourcentage important de la durée totale des requêtes classiques dans la table est consacré à l’analyse. Ceci s’applique aux requêtes qui filtrent sur une ou plusieurs colonnes spécifiques.

Notez que le reclustering réécrit les données existantes avec un ordre différent. L’ordre précédent est conservé pendant 7 jours afin d’assurer une protection Fail-safe. Le reclustering d’une table entraîne des coûts de calcul qui sont corrélés à la taille des données qui sont réorganisées.

Pour plus d’informations, voir Clustering automatique.

Quand spécifier les longueurs de colonnes¶

Snowflake compresse efficacement les données de colonne. Par conséquent, la création de colonnes plus grandes que nécessaire a des conséquences minimes sur la taille des tables de données. De même, il n’y a pas de différence de performance de requête entre une colonne avec une déclaration de longueur maximale, par exemple VARCHAR(134217728) et une précision inférieure.

Cependant, lorsque la taille de vos données de colonne est prévisible, Snowflake recommande de définir une longueur de colonne appropriée, et ceci pour les raisons suivantes :

Les opérations de chargement de données sont plus susceptibles de détecter des problèmes, tels que des colonnes chargées dans le mauvais ordre, par exemple une chaîne de 50 caractères chargée par erreur dans une colonne VARCHAR(10). Ce genre de problème crée des erreurs.
Lorsque la longueur de colonne n’est pas spécifiée, certains outils tiers peuvent anticiper la consommation de la valeur de taille maximale, ce qui peut se traduire par une utilisation accrue de mémoire côté client ou un comportement inhabituel.

Stockage de données semi-structurées dans une colonne VARIANT vs. Aplatissement de la structure imbriquée¶

Si vous n’êtes pas encore sûr des types d’opérations que vous voulez effectuer sur vos données semi-structurées, Snowflake recommande de stocker les données dans une colonne VARIANT pour le moment. Pour les données qui sont le plus souvent régulières et n’utilisent que des types natifs (chaînes et entiers), les exigences de stockage et les performances de requête pour les opérations sur les données relationnelles et les données dans une colonne VARIANT sont très similaires.

Pour un meilleur élagage et une consommation de stockage réduite, Snowflake recommande d’aplatir votre objet et vos données clés en colonnes relationnelles séparées si vos données semi-structurées incluent :

Des dates et horodatages, et plus particulièrement des dates et horodatages non ISO 8601 en tant que valeurs de chaîne.
Des nombres dans les chaînes.
Des tableaux.

Les valeurs non natives, telles que les dates et les horodatages, sont stockées sous forme de chaînes lorsqu’elles sont chargées dans une colonne VARIANT. Les opérations sur ces valeurs peuvent donc être plus lentes et consommer plus d’espace que lorsqu’elles sont stockées dans une colonne relationnelle avec le type de données correspondant.

Si vous connaissez les cas d’utilisation des données, effectuez des tests sur un ensemble de données classique. Chargez l’ensemble de données dans une colonne VARIANT d’une table. Utilisez la fonction FLATTEN pour extraire les objets et les clés que vous souhaitez interroger vers une table séparée. Exécutez un ensemble classique de requêtes sur les deux tables pour voir quelle structure fournit les meilleures performances.

Conversion d’une table permanente en table transitoire ou vice-versa¶

Actuellement, il n’est pas possible de changer une table permanente en table transitoire en utilisant la commande ALTER TABLE. La propriété TRANSIENT est définie au moment de la création de la table et ne peut pas être modifiée.

Actuellement, il n’est pas possible de changer directement une table transitoire en table permanente.

Pour convertir une table permanente existante en table transitoire (ou vice versa) tout en préservant les données et d’autres caractéristiques telles que les valeurs par défaut des colonnes et les privilèges accordés, vous pouvez créer une nouvelle table à l’aide de l’une des interfaces décrites dans les exemples suivants :

Utilisez la clause COPY GRANTS de la commande CREATE TABLE :

CREATE TRANSIENT TABLE my_new_table LIKE my_old_table COPY GRANTS;

Utilisez les arguments like_table et copy_grants de la méthode TableCollection.create :

from snowflake.core.table import Table

my_table = Table(
  name="my_new_table",
  kind="TRANSIENT"
)
tables = root.databases["<database>"].schemas["<schema>"].tables
tables.create(my_table, like_table="my_old_table", copy_grants=True)

Utilisez ensuite la commande INSERT pour copier les données :

INSERT INTO my_new_table SELECT * FROM my_old_table;

Si vous souhaitez conserver toutes les données, mais pas les privilèges et autres caractéristiques accordés, vous pouvez utiliser l’une des interfaces suivantes :

Utilisez une instruction CREATE TABLE AS SELECT (CTAS) :

CREATE TRANSIENT TABLE my_transient_table AS SELECT * FROM mytable;

Utilisez l’argument as_select de la méthode TableCollection.create :

from snowflake.core.table import Table

my_table = Table(
  name="my_transient_table",
  kind="TRANSIENT"
)
tables = root.databases["<database>"].schemas["<schema>"].tables
tables.create(my_table, as_select="SELECT * FROM mytable")

Une autre façon de faire une copie d’une table (mais en changeant le cycle de vie de permanent à transitoire) est de cloner la table en utilisant l’une des interfaces suivantes :

Utilisez la clause CLONE de la commande CREATE TABLE :

CREATE TRANSIENT TABLE foo CLONE bar COPY GRANTS;

Utilisez l’argument clone_table de la méthode TableCollection.create :

from snowflake.core.table import Table

my_table = Table(
  name="foo",
  kind="TRANSIENT"
)
tables = root.databases["<database>"].schemas["<schema>"].tables
tables.create(my_table, clone_table="bar", copy_grants=True)

Les anciennes partitions ne sont pas affectées (elles ne deviendront pas transitoires), mais les nouvelles partitions ajoutées au clone suivront le cycle de vie transitoire.

Vous ne pouvez pas cloner une table transitoire vers une table permanente.