Utiliser une base de données liée à un catalogue pour les tables Apache Iceberg™¶

Avec une base de données liée à un catalogue, vous pouvez accéder à plusieurs tables Iceberg distantes de Snowflake sans créer de tables gérées en externe individuellement.

Une base de données liée à un catalogue est une base de données Snowflake connectée à un catalogue REST Iceberg externe. Snowflake se synchronise automatiquement avec le catalogue externe pour détecter les espaces de noms et les tables Iceberg et enregistre les tables distantes dans la base de données liée au catalogue. Les bases de données liées à un catalogue prennent également en charge la création et la suppression de schémas ou de tables Iceberg.

Facturation pour les bases de données liées à un catalogue¶

Snowflake facture votre compte pour l’utilisation suivante :

Découverte automatique des tables, création de schémas, suppression de schémas et suppression de tables. Snowflake facturera votre compte pour cette utilisation sous le type d’utilisation CREDITS_USED_CLOUD_SERVICES. L’utilisation des services Cloud n’est facturée que si la consommation quotidienne de services Cloud dépasse 10 % de l’utilisation quotidienne des entrepôts virtuels. Pour plus d’informations, voir Comprendre la facturation pour l’utilisation des services Cloud.
Création de tables. Snowflake facturera votre compte pour cette utilisation sous le type d’utilisation CREDITS_USED_COMPUTE via l’actualisation automatique. Le coût de cette utilisation est décrit dans la table 5 du Tableau de consommation du service Snowflake sur le site Web de Snowflake. Reportez-vous à la colonne des calculs gérés par Snowflake pour consulter la ligne Actualisation automatique et Enregistrement des données.

Snowflake ne vous facturera pas les services Cloud que vous utilisez lors de la création de tables.

Note

Pour afficher l’utilisation du crédit pour vos bases de données liées à des catalogues, utilisez l’Vue CATALOG_LINKED_DATABASE_USAGE_HISTORY.

Flux de travail pour configurer l’accès à votre catalogue externe et au stockage de tables¶

Les étapes suivantes expliquent comment créer une base de données liée à un catalogue, vérifier l’état de synchronisation entre Snowflake et votre catalogue, et créer ou interroger une table dans la base de données.

Note

Si vos données externes se trouvent dans le catalogue Unity, voir Tutoriel : Configurer l’accès bidirectionnel aux tables Apache Iceberg™ dans Databricks Unity Catalog pour commencer à utiliser des bases de données liées à des catalogues.
Si vos données externes se trouvent dans AWS Glue, voir Créer des data lakes en utilisant Apache Iceberg avec Snowflake et AWS Glue

Configurer l’accès à votre catalogue externe et au stockage de tables¶

Avant de créer une base de données liée à un catalogue, vous devez configurer l’accès à votre catalogue externe et au stockage de tables. Pour configurer cet accès, vous devez configurez une intégration de catalogue avec des identifiants de connexion distribués. Avec cette option, votre catalogue Iceberg distant doit prendre en charge la distribution d’identifiants.

Pour obtenir des instructions, voir Utiliser des identifiants de connexion distribués par catalogue pour les tables Apache Iceberg™.

Note

Si votre catalogue Iceberg distant ne prend pas en charge le système de distribution d’identifiants de connexion, vous devez configurer un volume externe et une intégration de catalogue pour configurer l’accès à votre catalogue externe et à votre stockage de tables. D’abord, configurez un volume externe pour votre fournisseur de stockage Cloud. Ensuite, configurez une intégration de catalogue REST Apache Iceberg™ pour votre catalogue Iceberg distant.

Créer une base de données liée à un catalogue¶

Créez une base de données liée à un catalogue avec la commande CREATE DATABASE (liée à un catalogue) :

L’exemple suivant crée une base de données liée à un catalogue qui utilise des identifiants de connexion distribués. L’intervalle de synchronisation est de 30 secondes, ce qui correspond à la valeur par défaut. L’intervalle de synchronisation indique à Snowflake à quelle fréquence interroger votre catalogue distant.

CREATE DATABASE my_linked_db
  LINKED_CATALOG = (
    CATALOG = 'my_catalog_int'
  );

Note

Pour créer une base de données liée à un catalogue qui utilise un volume externe, consultez CREATE DATABASE (liée à un catalogue), y compris l’exemple.

Votre base de données liée à un catalogue comprend une icône de lien.

Formulaire de soumission d'un nouveau ticket

Vérifier la configuration d’une base de données liée au catalogue¶

Après avoir créé une base de données liée à un catalogue, utilisez la fonction SYSTEM$GET_CATALOG_LINKED_DATABASE_CONFIG pour vérifier la configuration de la base de données.

SELECT SYSTEM$GET_CATALOG_LINKED_DATABASE_CONFIG('my_linked_db');

Vérifier l’état de synchronisation du catalogue¶

Pour savoir si Snowflake a bien lié votre catalogue distant à votre base de données, utilisez la fonction SYSTEM$CATALOG_LINK_STATUS.

Cette fonction fournit également des informations pour vous aider à identifier les tables du catalogue distant qui ne parviennent pas à se synchroniser.

SELECT SYSTEM$CATALOG_LINK_STATUS('my_linked_db');

Identifier les tables qui ont été créées, mais qui n’ont pas pu être initialisées¶

Pour identifier les tables du catalogue distant qui se sont synchronisées correctement, mais qui échouent à s’actualiser automatiquement, exécutez la commande SHOW ICEBERG TABLES, puis reportez-vous à la colonne auto_refresh_status dans la sortie. Ces tables ont un executionState de ICEBERG_TABLE_NOT_INITIALIZED dans la sortie.

Par exemple, Snowflake peut détecter et créer correctement une table dans votre catalogue distant vers votre base de données liée au catalogue, mais cette table contient un fichier de données corrompu dans votre catalogue distant. Par conséquent, Snowflake ne peut pas actualiser automatiquement la table tant que vous n’avez pas résolu l’erreur.

L’actualisation automatique est désactivée pour ce type de tables. L’interrogation de la table dans Snowflake renvoie donc une erreur indiquant que la table n’a jamais été initialisée. Pour interroger la table, vous devez corriger l’erreur, puis activer l’actualisation automatique pour la table.

Interroger une table dans votre base de données liée à un catalogue¶

Une fois que vous avez créé une base de données liée à un catalogue, Snowflake démarre le processus de découverte de la table et interroge automatiquement votre catalogue lié en utilisant la valeur du paramètre SYNC_INTERVAL_SECONDS (avec un intervalle par défaut de 30 secondes) pour vérifier les modifications.

Dans la base de données, les espaces de noms autorisés du catalogue distant apparaissent sous la forme de schémas, et les tables Iceberg apparaissent sous leurs schémas respectifs.

Vous pouvez interroger les tables distantes en utilisant une instruction SELECT.

Note

Pour connaître les exigences relatives à l’identification d’objets dans une base de données liée à un catalogue, consultez Exigences pour la résolution des identificateurs dans une base de données liée à un catalogue.

Pour plus d’informations sur les identificateurs d’objets, consultez Exigences relatives à l’identificateur.

Par exemple :

USE DATABASE my_linked_db;

SELECT * FROM my_namespace.my_iceberg_table
  LIMIT 20;

Écrire dans votre catalogue distant¶

Vous pouvez utiliser Snowflake pour créer des espaces de noms et des tables Iceberg dans votre catalogue lié. Pour plus d’informations, consultez les rubriques suivantes :

Exigences pour la résolution des identificateurs dans une base de données liée à un catalogue¶

L’exigence de résolution d’un identificateur dépend des éléments suivants :

La valeur que vous avez spécifiée pour le paramètre CATALOG_CASE_SENSITIVITY lorsque vous avez créé votre base de données liée à un catalogue.
Le fait que votre catalogue Iceberg externe utilise des identificateurs sensibles à la casse ou non.

Note

Ces exigences s’appliquent à l’identification des schémas, des tables et des colonnes de tables qui existent déjà. Elles comprennent également certains cas particuliers pour la création ou la modification d’un objet.
Lorsque vous créez un nouveau schéma, une nouvelle table ou une nouvelle colonne dans un catalogue sensible à la casse, par exemple AWS Glue ou Unity Catalog, vous devez utiliser des lettres minuscules et mettre le nom du schéma, de la table et de la colonne entre guillemets doubles. Cela est également requis pour les autres catalogues REST Iceberg qui ne prennent en charge que les identificateurs en minuscules.

Le tableau suivant montre l’exigence pour chaque scénario :


Valeur CATALOG_CASE_SENSITIVITY	Utilisations d’un catalogue Iceberg externe	Exigence
CASE_SENSITIVE	Identificateurs sensibles à la casse	Snowflake fait correspondre les identificateurs exactement tels qu’ils apparaissent, en respectant la casse. Snowflake convertit automatiquement les identificateurs sans guillemets en majuscules, mais les identificateurs entre guillemets doivent correspondre exactement à la casse dans votre catalogue externe. L’exemple suivant montre une requête valide pour la création d’une table : CREATE TABLE "Table1" (id INT, name STRING); Snowflake crée la table dans le catalogue externe sous le nom `Table1`, et conserve donc la capitalisation que vous avez utilisée. Notez que vous pouvez également créer une table `table1` en minuscules, si nécessaire. L’exemple suivant montre une requête valide pour la sélection de la table `Table1` : SELECT * FROM "Table1"; Dans l’exemple précédent, les guillemets doubles sont nécessaires pour que la capitalisation corresponde exactement. L’exemple suivant montre une requête non valide, à moins qu’une table `TABLE1` existe : SELECT * FROM table1; Dans l’exemple précédent, la requête n’est pas valide si une `TABLE1` n’existe pas, car l’identificateur n’est pas entre guillemets doubles. Par conséquent, Snowflake convertit l’identificateur en majuscules. L’exemple suivant montre une requête non valide dans le cas où une `TABLE1` tout en majuscules n’existe pas : SELECT * FROM TABLE1;
CASE_SENSITIVE	Identificateurs insensibles à la casse	Si le catalogue Iceberg externe est réellement insensible à la casse, et s’il normalise en minuscules, vous devez mettre les identificateurs entre guillemets doubles. L’exemple suivant montre une requête valide : SELECT * from "s1"; SELECT * from "lowercasetablename";
CASE_INSENSITIVE	Identificateurs insensibles à la casse	Si votre catalogue insensible à la casse comporte une table `table1` en minuscules, toutes les requêtes suivantes sont valides : SELECT * from table1; SELECT * from TABLE1; SELECT * from Table1; SELECT * from "table1"; Pour toutes les commandes suivantes, vous devez mettre les noms de schémas, de tables et de colonnes entre guillemets doubles : CREATE ICEBERG TABLE CREATE SCHEMA ALTER ICEBERG TABLE ADD COLUMN ALTER ICEBERG TABLE RENAME COLUMN
CASE_INSENSITIVE	Identificateurs sensibles à la casse	Si le catalogue Iceberg externe est réellement sensible à la casse, Snowflake traite les identificateurs sans guillemets comme insensibles à la casse et convertit automatiquement les identificateurs sans guillemets en majuscules. Lorsque vous créez ou interrogez des objets, Snowflake fait correspondre les identificateurs, indépendamment de la casse, à condition qu’ils ne soient pas entre guillemets. L’utilisation de ce modèle est déconseillée, car Snowflake ne peut pas résoudre deux identificateurs différents qui diffèrent par leur casse. Ce modèle ne fonctionne que lorsque deux identificateurs ne diffèrent pas uniquement par leur casse. Considérons le cas où le catalogue distant contient une table `Table1`. Toutes les requêtes suivantes sont valides pour interroger cette table. SELECT * from table1; SELECT * from TABLE1; SELECT * from Table1; SELECT * from "Table1"; Les identificateurs entre guillemets conservent la casse et correspondent exactement. Cependant, en mode CASE_INSENSITIVE, les formes entre guillemets et sans guillemets sont toutes deux prises en charge.

Considérations relatives à l’utilisation d’une base de données liée à un catalogue pour les tables Iceberg¶

Tenez compte des éléments suivants lorsque vous utilisez une base de données liée à un catalogue :