Tables Apache Iceberg™¶

Les tables Apache Iceberg™ pour Snowflake combinent les performances et la sémantique de requête des tables Snowflake typiques avec le stockage cloud externe que vous gérez. Elles sont idéales pour les data lakes existants que vous ne pouvez pas, ou choisissez de ne pas, stocker dans Snowflake.

Les tables Iceberg utilisent la spécification de format de table ouvert Apache Iceberg™, qui fournit une couche d’abstraction sur les fichiers de données stockés dans des formats ouverts et prend en charge des fonctions telles que :

Transactions ACID (atomicité, cohérence, isolation, durabilité)
Évolution du schéma
Partitionnement masqué
Instantanés de table

Snowflake prend en charge les tables Iceberg qui utilisent le format de fichier Apache Parquet™.

Prise en main¶

Pour commencer à utiliser des tables Iceberg, consultez Tutoriel : Créer votre première table Apache Iceberg™.

Fonctionnement¶

Cette section fournit des informations spécifiques à l’utilisation de tables Iceberg dans Snowflake. Pour en savoir plus sur la spécification de format de table Iceberg, voir la documentation Apache Iceberg et les Spécifications des tables Iceberg officielles.

Stockage de données
Catalogue
Métadonnées et instantanés
Prise en charge inter-Cloud/interrégionale
Facturation

Stockage de données¶

Les tables Iceberg stockent leurs fichiers de données et de métadonnées dans un emplacement de stockage Cloud externe (Amazon S3, Google Cloud Storage ou Azure Storage). Le stockage externe ne fait pas partie de Snowflake. Vous êtes responsable de l’ensemble de la gestion de l’emplacement de stockage Cloud externe, y compris de la configuration de la protection et de la récupération de données. Snowflake ne fournit pas de stockage Fail-safe pour les tables Iceberg.

Snowflake se connecte à votre emplacement de stockage à l’aide d’un volume externe, et les tables Iceberg n’entraîenent aucun coût de stockage Snowflake. Pour plus d’informations, voir Facturation.

Pour en savoir plus sur le stockage des tables Iceberg, consultez Stockage pour les tables Apache Iceberg™.

Volume externe¶

Un volume externe est un objet Snowflake nommé, de niveau compte, que vous utilisez pour connecter Snowflake à votre stockage cloud externe pour les tables Iceberg. Un volume externe stocke une entité de gestion de l’identité et de l’accès (IAM) pour votre lieu de stockage. Snowflake utilise l’entité IAM pour se connecter en toute sécurité à votre stockage afin d’accéder aux données des tables, aux métadonnées Iceberg et aux fichiers manifestes qui stockent le schéma des tables, les partitions et d’autres métadonnées.

Un seul volume externe peut prendre en charge une ou plusieurs tables Iceberg.

Pour configurer un volume externe pour des tables Iceberg, voir Configurer un volume externe.

Catalogue¶

Un catalogue Iceberg permet à un moteur de calcul de gérer et de charger des tables Iceberg. Le catalogue constitue la première couche architecturale de la spécification des tables Iceberg et doit prendre en charge :

Stockage du pointeur de métadonnées actuel pour une ou plusieurs tables Iceberg. Un pointeur de métadonnées mappe un nom de table vers l’emplacement du fichier de métadonnées actuel de cette table.
Exécution d’opérations atomiques permettant de mettre à jour le pointeur de métadonnées actuel d’une table.

Pour en savoir plus sur les catalogues Iceberg, voir la documentation Apache Iceberg.

Snowflake prend en charge différentes options de catalogue. Par exemple, vous pouvez utiliser Snowflake comme catalogue Iceberg ou utiliser une intégration de catalogue pour connecter Snowflake à un catalogue Iceberg externe.

Intégration de catalogue¶

Une intégration de catalogue est un objet Snowflake de niveau compte qui stocke des informations sur la façon dont vos métadonnées de table sont organisées pour les scénarios suivants :

Lorsque vous n’utilisez pas Snowflake comme catalogue Iceberg. Par exemple, vous avez besoin d’une intégration de catalogue si votre table est gérée par AWS Glue.
Lorsque vous souhaitez une intégration à Snowflake Open Catalog pour :
- Interroger une table Iceberg dans Snowflake Open Catalog à l’aide de Snowflake.
- Synchroniser une table Iceberg gérée par Snowflake avec Snowflake Open Catalog afin que les moteurs de calcul tiers puissent interroger la table.

Une seule intégration de catalogue peut prendre en charge une ou plusieurs tables Iceberg qui utilisent le même catalogue externe.

Pour configurer l’intégration d’un catalogue, consultez Configuration d’une intégration de catalogue.

Métadonnées et instantanés¶

Iceberg utilise un modèle de requête basé sur des instantanés, dans lequel les fichiers de données sont mappés à l’aide de fichiers manifestes et de métadonnées. Un instantané représente l’état d’une table à un moment donné et est utilisé pour accéder à l’ensemble complet de fichiers de données de la table.

Pour en savoir plus sur les métadonnées de table et la prise en charge de Time Travel, voir Métadonnées et conservation des tables Apache Iceberg™.

Prise en charge inter-Cloud/interrégionale¶

Snowflake prend en charge l’utilisation d’un emplacement de stockage de volume externe auprès d’un fournisseur Cloud différent (dans une région différente) de celui qui héberge votre compte Snowflake.


Type de table	Prise en charge inter-Cloud/interrégionale	Remarques
Tables utilisant un catalogue externe avec une intégration de catalogue	✔	Si votre compte Snowflake et votre volume externe se trouvent dans des régions différentes, votre compte de stockage Cloud externe encourt des coûts de sortie lorsque vous interrogez la table.
Tables qui utilisent Snowflake comme catalogue Iceberg	✔	Si votre compte Snowflake et votre volume externe se trouvent dans des régions différentes, votre compte de stockage Cloud externe encourt des coûts de sortie lorsque vous interrogez la table. Ces tables entraînent des coûts pour l’utilisation du transfert de données entre régions. Pour plus d’informations, voir Facturation.

Facturation¶

Snowflake facture votre compte pour l’utilisation (le calcul) de l’entrepôt virtuel et les services Cloud lorsque vous utilisez des tables Iceberg. Snowflake facture également votre compte si vous utilisez l’actualisation automatique ou un moteur de requêtes externe via Snowflake Horizon Catalog.

Si une table Iceberg gérée par Snowflake est inter-Cloud/interrégionale , Snowflake facture votre utilisation de transfert de données entre régions sous le TRANSFER_TYPE DATA_LAKE. Pour en savoir plus, voir :

Vue DATA_TRANSFER_HISTORY dans le schéma ORGANIZATION_USAGE.
Vue DATA_TRANSFER_HISTORY dans le schéma ACCOUNT_USAGE.

Snowflake ne facture pas votre compte pour les coûts suivants :

Coûts de stockage de la table Iceberg lorsque la table utilise un volume externe que vous gérez. Votre fournisseur de stockage Cloud vous facture directement pour l’utilisation du stockage de données. Toutefois, si la table utilise Stockage Snowflake (EXTERNAL_VOLUME = SNOWFLAKE_MANAGED), Snowflake facture le stockage. Pour plus d’informations, voir Stockage Snowflake pour les tables Apache Iceberg™.
Octets actifs utilisés par les tables Iceberg. En revanche, les vues INFORMATION_SCHEMA.TABLE_STORAGE_METRICS et ACCOUNT_USAGE.TABLE_STORAGE_METRICS affichent ACTIVE_BYTES pour les tables Iceberg afin de vous aider à déterminer la quantité d’espace de stockage occupée par une table. Pour voir un exemple, consultez Récupération des métriques de stockage.

Note

Si votre compte Snowflake et votre volume externe se trouvent dans des régions différentes, votre compte de stockage Cloud externe encourt des coûts de sortie lorsque vous interrogez la table.

Options de catalogue¶

Snowflake prend en charge les options de catalogue Iceberg suivantes :

Utiliser Snowflake comme catalogue Iceberg
Utiliser un catalogue Iceberg externe

Le tableau suivant résume les différences entre ces options de catalogue.


	Utiliser Snowflake comme catalogue	Utiliser un catalogue externe
Accès en lecture	✔	✔
Accès en écriture	✔	✔
Identifiants de connexion distribués par le catalogue		✔
Accès en écriture entre régions	✔	✔ avec la prise en charge de l’écriture pour les tables gérées de manière externe
Stockage des données et des métadonnées	Volume externe (stockage Cloud)	Volume externe (stockage Cloud)
Prise en charge de la plateforme Snowflake	✔
S’intègre à Snowflake Open Catalog	✔ Vous pouvez synchroniser une table gérée par Snowflake avec Open Catalog pour interroger une table à l’aide d’autres moteurs de calcul.	✔ Vous pouvez utiliser Snowflake pour interroger les tables Iceberg gérées par Open Catalog.
Fonctionne avec le SDK du catalogue Snowflake	✔	✔
Réplication pour les tables	✔ Voir Configurer la réplication pour les tables Apache Iceberg™ gérées par Snowflake.

Utiliser Snowflake comme catalogue¶

Une table Iceberg qui utilise Snowflake comme catalogue Iceberg (table Iceberg gérée par Snowflake) offre un support complet de la plateforme Snowflake avec un accès en lecture et en écriture. Les données et métadonnées de la table sont stockées dans un stockage Cloud externe auquel Snowflake accède via un volume externe. Snowflake gère toute la maintenance du cycle de vie, comme le compactage, pour la table. Toutefois, vous pouvez désactiver le compactage pour la table si nécessaire.

Fonctionnement des tables Iceberg qui utilisent Snowflake comme catalogue Iceberg

Utiliser un catalogue externe¶

Une table Iceberg qui utilise un catalogue externe offre une prise en charge de plateforme Snowflake limitée, avec un accès en lecture seule.

Avec ce type de table, Snowflake utilise une intégration de catalogue pour récupérer des informations sur les métadonnées et le schéma Iceberg.

Vous pouvez utiliser cette option pour créer une table Iceberg pour les sources suivantes :

Catalogue REST Iceberg distant, y compris AWS Glue et Snowflake Open Catalog. Snowflake prend en charge l’écriture dans les tables gérées de manière externe qui utilisent un catalogue REST Iceberg distant.
Astuce

Pour récupérer vos données externes depuis un catalogue REST Iceberg distant dans Snowflake, vous pouvez créer une base de données liée à un catalogue. La base de données découvre et reste automatiquement synchronisée avec les espaces de noms et les tables de votre catalogue distant. Vous pouvez utiliser une base de données liée au catalogue pour lire et écrire dans les tables de votre catalogue distant depuis Snowflake, tout en préservant l’interopérabilité complète avec votre écosystème Iceberg existant. Pour plus d’informations, consultez les rubriques suivantes :
- Utiliser une base de données liée à un catalogue pour les tables Apache Iceberg™
- Si vos données externes se trouvent dans le catalogue Unity, voir Tutoriel : Configurer l’accès bidirectionnel aux tables Apache Iceberg™ dans Databricks Unity Catalog
- Si vos données externes se trouvent dans AWS Glue, voir` Créer des data lakes en utilisant Apache Iceberg avec Snowflake etAWS Glue <https://www.snowflake.com/en/developers/guides/data-lake-using-apache-iceberg-with-snowflake-and-aws-glue/>`_
Fichiers de tables Delta dans le stockage d’objets (Delta Direct ; voir CREATE ICEBERG TABLE (fichiers Delta dans le stockage d’objets))
Fichiers de métadonnées Iceberg dans le stockage d’objets

Snowflake ne prend en charge aucune gestion du cycle de vie de la table.

Les données et métadonnées de la table sont stockées dans un stockage Cloud externe auquel Snowflake accède via un volume externe.

Note

Si vous souhaitez une prise en charge complète de la plateforme Snowflake pour une table Iceberg qui utilise un catalogue externe, vous pouvez convertir cette table pour qu’elle utilise Snowflake comme catalogue. Pour plus d’informations, voir Conversion d’une table Apache Iceberg™ pour utiliser Snowflake comme catalogue.

Le diagramme suivant montre comment une table Iceberg utilise une intégration de catalogue avec un catalogue Iceberg externe.

Fonctionnement des tables Iceberg qui utilisent une intégration de catalogue

Prise en charge de Apache Iceberg™ V3 (Avant-première)¶

La prise en charge de la version V3 de la spécification de table Apache Iceberg™ est désormais disponible en avant-première publique. Pour plus de détails, voir Tables Apache Iceberg™ : Prise en charge de Apache Iceberg™ v3 (Prévisualisation).

Considérations et limites¶

Les considérations et limites suivantes s’appliquent aux tables Iceberg et sont susceptibles d’être modifiées :

Clouds et régions

Les tables Iceberg sont disponibles pour tous les comptes Snowflake, sur toutes les plateformes Cloud et dans toutes les régions.

Les tables inter-Cloud/interrégionales sont prises en charge. Pour plus d’informations, voir Prise en charge inter-Cloud/interrégionale.

Iceberg

Les versions 1 et 2 de la spécification Apache Iceberg sont prises en charge, à l’exception des fonctions suivantes :

Suppressions de l’égalité au niveau des lignes. Cependant, les tables qui utilisent Snowflake comme catalogue prennent en charge les instructions DELETE Snowflake.

Utilisation de la history.expire.min-snapshots-to-keep propriété de table pour spécifier le nombre minimal d’instantanés à conserver par défaut. Pour plus d’informations, voir Métadonnées et instantanés.

Le partitionnement Iceberg avec la fonction de transformation bucket a un impact sur les performances des requêtes qui utilisent des clauses conditionnelles pour filtrer les résultats.

Pour les tables Iceberg qui ne sont pas gérées par Snowflake, tenez compte des éléments suivants :

La fonction Time Travel vers n’importe quel instantané généré après la création de la table est prise en charge à condition que vous actualisiez périodiquement la table avant l’expiration de l’instantané.

La conversion d’une table dont la colonne de partition d’identité n’est pas matérialisée n’est pas prise en charge. Une colonne de partition d’identité non matérialisée est créée lorsqu’une table définit une transformation d’identité en utilisant une colonne source qui n’existe pas dans un fichier Parquet.

Pour les suppressions de niveau ligne :

Snowflake prend en charge les suppressions de position uniquement pour les tables Iceberg v2, et les vecteurs de suppression pour les tables Iceberg v3.

Snowflake ne prend en charge que les suppressions de positions avec des tables Iceberg gérées en externe.

Pour obtenir les meilleures performances de lecture lorsque vous utilisez des suppressions de niveau ligne, procédez régulièrement au compactage et à la maintenance des tables afin de supprimer les anciens fichiers de suppression. Pour plus d’informations, voir Gestion des tables utilisant un catalogue externe.

Des suppressions de position excessives, en particulier des suppressions de position en suspens, peuvent empêcher les opérations de création et d’actualisation des tables. Pour éviter ce problème, effectuez la maintenance des tables pour supprimer les suppressions de position supplémentaires.

La méthode de maintenance des tables à utiliser dépend de votre moteur Iceberg externe. Par exemple, vous pouvez utiliser la méthode rewrite_data_files pour Spark avec les options delete-file-threshold ou rewrite-all. Pour plus d’informations, consultez rewrite_data_files dans la documentation Apache Iceberg™.

Formats de fichier

Les tables Iceberg prennent en charge les fichiers Apache Parquet.

Les fichiers Parquet qui utilisent le type logique d’entier non signé ne sont pas pris en charge.

Pour les fichiers Parquet qui utilisent le type logique LIST, tenez compte des points suivants :

La structure d’annotation à trois niveaux avec le mot-clé element est prise en charge. Pour plus d’informations, consultez Définitions de types logiques Parquet. Si votre fichier Parquet utilise un format obsolète avec le mot-clé array, vous devez régénérer vos données en vous basant sur le format pris en charge.

Volumes externes

Vous ne pouvez pas accéder aux emplacements de stockage dans le cloud dans les volumes externes à l’aide d’une intégration de stockage.

Vous devez configurer une relation de confiance distincte pour chaque volume externe que vous créez.

Vous pouvez utiliser la connectivité privée sortante pour accéder aux tables Iceberg gérées par Snowflake et aux tables Iceberg qui utilisent une intégration de catalogue pour le stockage d’objets, mais vous ne pouvez pas l’utiliser pour accéder aux tables Iceberg qui utilisent d’autres intégrations de catalogue.

Une fois que vous avez créé une table gérée par Snowflake, le chemin d’accès à ses fichiers dans le stockage externe ne change plus, même si vous renommez la table.

Snowflake ne peut pas prendre en charge les volumes externes dont les noms de compartiment S3 contiennent des points (par exemple, my.s3.bucket). S3 ne prend pas en charge le SSL pour les compartiments de type hôte virtuel avec des points dans le nom, et Snowflake utilise des chemins de type hôte virtuel et HTTPS pour accéder aux données dans S3.

Fichiers de métadonnées

Les fichiers de métadonnées n’identifient pas l’instantané le plus récent d’une table Iceberg.

Vous ne pouvez pas modifier l’emplacement des fichiers de données ou de l’instantané à l’aide de la commande ALTER ICEBERG TABLE. Pour modifier l’un ou l’autre de ces paramètres, vous devez recréer la table (via la syntaxe CREATE OR REPLACE ICEBERG TABLE).

Pour les tables qui utilisent un catalogue externe :

Assurez-vous que les fichiers manifestes ne contiennent pas de doublons. Si des fichiers en double sont présents dans le même instantané, Snowflake renvoie une erreur qui inclut le chemin du fichier en double.

Vous ne pouvez pas créer une table si les métadonnées Parquet contiennent des caractères UTF-8 non valides. Assurez-vous que vos métadonnées Parquet contiennent des caractères UTF-8 conformes.

Snowflake détecte les corruptions et les incohérences dans les métadonnées Parquet produites en dehors de Snowflake et signale les problèmes par des messages d’erreur.

Il est possible de créer, d’actualiser ou d’interroger des tables gérées en externe (ou converties), même si les métadonnées de la table sont incohérentes. Lorsque vous écrivez des données Iceberg, assurez-vous que les statistiques de métadonnées de la table (par exemple, RowCount ou NullCount) correspondent au contenu des données.

Pour les tables qui utilisent Snowflake comme catalogue, Snowflake traite les instructions DDL individuellement et génère des métadonnées d’une manière qui peut différer des autres catalogues. Pour plus d’informations, voir Instructions DDL.

Clustering

La prise en charge du clustering dépend du type de table Iceberg.

Type de table

Remarques

Tables qui utilisent Snowflake comme catalogue Iceberg

Définissez une clé de clustering via la commande CREATE ICEBERG TABLE ou ALTER ICEBERG TABLE. Pour définir ou gérer une clé de clustering, voir CREATEICEBERGTABLE (Snowflake comme catalogue Iceberg) et ALTER ICEBERG TABLE.

Tables utilisant un catalogue externe

Le clustering n’est pas pris en charge.

Tables converties

Snowflake ne met les fichiers en cluster que s’ils ont été créés après la conversion de la table, ou si les fichiers ont été modifiés depuis à l’aide d’une instruction DML.

Type de table	Remarques
Tables qui utilisent Snowflake comme catalogue Iceberg	Définissez une clé de clustering via la commande CREATE ICEBERG TABLE ou ALTER ICEBERG TABLE. Pour définir ou gérer une clé de clustering, voir CREATEICEBERGTABLE (Snowflake comme catalogue Iceberg) et ALTER ICEBERG TABLE.
Tables utilisant un catalogue externe	Le clustering n’est pas pris en charge.
Tables converties	Snowflake ne met les fichiers en cluster que s’ils ont été créés après la conversion de la table, ou si les fichiers ont été modifiés depuis à l’aide d’une instruction DML.

Delta

Snowflake prend en charge minReaderVersion 3 et peut lire toutes les tables écrites par des moteurs utilisant la dernière version de Delta Lake, à savoir 4.0.0. La version 4.0.0 de Delta Lake prend en charge les vecteurs de suppression et le clustering liquide.

Les flux Snowflake ne sont pas pris en charge pour les tables Iceberg créées à partir de fichiers de table Delta avec des colonnes de partition. Cependant, les flux d’insertion uniquement pour les tables créées à partir de fichiers Delta sans colonnes de partition sont pris en charge.

Les tables Iceberg créées à partir de fichiers Delta qui ont été créées avant le bundle de version 04_2024 ne sont pas prises en charge dans les tables dynamiques.

Snowflake ne prend pas en charge la création de tables Iceberg à partir de définitions de table Delta dans le catalogue de données AWS Glue.

Les fichiers Parquet (fichiers de données pour les tables Delta) qui utilisent l’une des fonctionnalités ou l’un des types de données suivants ne sont pas pris en charge :

IDs de champ.

Le type de données est INTERVAL.

Le type de données DECIMAL avec une précision supérieure à 38.

Types LIST ou MAP avec représentation à un ou deux niveaux.

Types d’entiers non signés (INT(signé = faux)).

Le type de données est FLOAT16.

Vous pouvez utiliser le type physique Parquet int96 pour TIMESTAMP, mais Snowflake ne prend pas en charge int96 pour TIMESTAMP_NTZ.

Pour plus d’informations sur les types de données Delta et les tables Iceberg, voir Types de données Delta.

Snowflake traite un maximum de 1 000 fichiers de validation Delta chaque fois que vous rafraîchissez une table en utilisant CREATE/ALTER. .. REFRESH. Si votre table contient plus de 1 000 fichiers de validation, vous pouvez procéder à des actualisations manuelles supplémentaires. À chaque fois, le processus d’actualisation reprend là où le précédent s’est arrêté.

Note

Snowflake utilise des fichiers de point de contrôle Delta lors de la création d’une table Iceberg. La limite de 1 000 fichiers de validation s’applique uniquement aux validations effectuées après le dernier point de contrôle.

Lorsque vous actualisez une table existante, Snowflake traite les fichiers de validation Delta, mais pas les fichiers de points de contrôle. Si la maintenance des tables supprime les fichiers journaux et les fichiers de données périmés pour la table Delta source, vous devez actualiser les tables Iceberg basées sur Delta dans Snowflake plus fréquemment que la période de conservation des fichiers journaux et des fichiers de données Delta.

Les fonctionnalités suivantes de Delta Lake ne sont actuellement pas prises en charge : suivi des lignes, modification de fichiers de données, modification de métadonnées, DataChange, CDC, évolution du protocole.

Actualisation automatique

Pour les intégrations de catalogues créées avant la version 8.22 de Snowflake (ou 9.2 pour les tables basées sur Delta), vous devez définir manuellement le paramètre REFRESH_INTERVAL_SECONDS avant d’activer l’actualisation automatique sur les tables qui dépendent de cette intégration de catalogue. Pour obtenir des instructions, voir ALTER CATALOG INTEGRATION … SET AUTO_REFRESH.

Pour les intégrations au catalogue pour le stockage d’objets, l’actualisation automatique n’est prise en charge que pour les intégrations avec TABLE_FORMAT = DELTA.

Pour les tables recevant fréquemment des mises à jour, l’utilisation d’un intervalle d’interrogation plus court (REFRESH_INTERVAL_SECONDS) peut entraîner une dégradation des performances.

L’actualisation automatisée synchronise les modifications de schéma en même temps que des opérations DML comme INSERT, UPDATE ou DELETE. Pour appliquer les modifications de schéma effectuées via des opérations DDL uniquement, effectuez une actualisation manuelle.

Bases de données liées à un catalogue et découverte automatique des tables

Prise en charge uniquement lorsque vous utilisez une intégration de catalogue pour REST Iceberg (par exemple, Snowflake Open Catalog).

Pour limiter la découverte automatique des tables à un ensemble spécifique d’espaces de noms, utilisez le paramètre ALLOWED_NAMESPACES. Vous pouvez également utiliser le paramètre BLOCKED_NAMESPACES pour bloquer un ensemble d’espaces de noms.

Snowflake ne synchronise pas le contrôle d’accès au catalogue distant pour les utilisateurs ou les rôles.

Vous pouvez créer des schémas ou des tables Iceberg gérées en externe ou des rôles de base de données dans une base de données liée à un catalogue. La création d’autres objets Snowflake n’est actuellement pas prise en charge.

Lorsque vous créez une base de données liée à un catalogue, vous ne pouvez pas spécifier la version Iceberg par défaut ou le comportement de fusion sur lecture à utiliser pour les tables Iceberg.

Toutefois, vous pouvez modifier ces propriétés pour une base de données existante en utilisant la commande ALTER DATABASE (liée à un catalogue) pour définir les paramètres suivants :

ICEBERG_VERSION_DEFAULT

ENABLE_ICEBERG_MERGE_ON_READ
Pour les tables Iceberg dans une base de données liée à un catalogue :
Snowflake synchronise de manière bidirectionnelle les descriptions de tables et de colonnes entre le catalogue distant et Snowflake. La synchronisation peut mettre à jour une description vers une nouvelle valeur, mais ne remplace jamais une description non vide par une description vide. Les autres propriétés de la table de catalogue distante, telles que les politiques de conservation ou les tampons, ne sont pas copiées, et la modification des propriétés de la table n’est actuellement pas prise en charge.

L’actualisation automatique est activée par défaut. Si l’table-uuid d’une table externe et la table de la base de données liée au catalogue ne correspondent pas, l’actualisation échoue et Snowflake supprime la table de la base de données liée au catalogue. Snowflake ne modifie pas la table distante.

Si vous supprimez une table du catalogue distant, Snowflake supprime la table de la base de données liée au catalogue. Cette action est asynchrone, de sorte que vous ne verrez peut-être pas immédiatement cette modification dans le catalogue distant.

Si vous renommez une table dans le catalogue distant, Snowflake supprime la table existante de la base de données liée au catalogue et crée une table avec le nouveau nom.

Les politiques de masquage et les balises sont prises en charge. Les autres fonctionnalités spécifiques à Snowflake, notamment la réplication et le clonage, ne sont pas prises en charge.

Le caractère que vous choisissez pour le paramètre NAMESPACE_FLATTEN_DELIMITER ne peut pas apparaître dans vos espaces de noms distants. Pendant le processus de découverte automatique, Snowflake ignore tout espace de noms contenant le délimiteur et ne crée pas de schéma correspondant dans votre base de données liée à un catalogue.

Si vous spécifiez autre chose que _, $ ou des chiffres pour le paramètre NAMESPACE_FLATTEN_DELIMITER, vous devez mettre le nom du schéma entre guillemets lorsque vous interrogez la table.
Pour les bases de données liées à AWS Glue, vous devez utiliser des minuscules et mettre les noms de schémas, de tables et de colonnes entre guillemets doubles. Cela est également requis pour les autres catalogues REST Iceberg qui ne prennent en charge que les identificateurs en minuscules.

L’exemple suivant montre une requête valide :
CREATE SCHEMA "s1";
Les instructions suivantes ne sont pas valides, car elles utilisent des lettres majuscules ou omettent les guillemets doubles :
CREATE SCHEMA s1;
CREATE SCHEMA "Schema1";
L’utilisation de UNDROP ICEBERG TABLE n’est pas prise en charge.

Partage :

Le partage avec une annonce n’est actuellement pas pris en charge.

Le partage direct est pris en charge.
Pour l’écriture dans les tables d’une base de données liée à un catalogue :

La création de tables dans des espaces de noms imbriqués n’est actuellement pas prise en charge.

L’écriture dans des tables dans des espaces de noms imbriqués n’est actuellement pas prise en charge.

Les suppressions de position au niveau des lignes sont prises en charge pour les tables stockées sur Amazon S3, Azure ou Google Cloud. Les suppressions au niveau des lignes avec des fichiers de suppression d’égalité ne sont pas prises en charge. Pour plus d’informations sur les suppressions au niveau des lignes, consultez Utiliser les suppressions de niveau ligne. Pour désactiver les suppressions de position, qui permettent l’exécution des opérations du langage de manipulation des données (DML) en mode copie sur écriture, définissez le paramètre ENABLE_ICEBERG_MERGE_ON_READ sur FALSE au niveau de la table, du schéma ou de la base de données.

Prise en charge de l’écriture gérée en externe

Snowflake prend en charge les écritures gérées en externe pour les tables Iceberg qui utilisent la version 2 de la spécification de la table Iceberg.

Snowflake fournit des commandes de langage de définition de données (DDL) et de langage de manipulation de données (DML) pour les tables gérées en externe. Cependant, vous configurez les métadonnées et la conservation des données à l’aide de votre catalogue externe et des outils fournis par votre fournisseur de stockage externe. Pour plus d’informations, voir Tables utilisant un catalogue externe.

Pour les écritures, Snowflake s’assure que les modifications sont validées dans votre catalogue distant avant de mettre à jour la table dans Snowflake.

Si vous utilisez une base de données liée à un catalogue, vous pouvez utiliser la syntaxe CREATE ICEBERG TABLE avec des définitions de colonnes pour créer une table dans Snowflake et dans votre catalogue distant. Si vous utilisez une base de données Snowflake standard (non liée à un catalogue), vous devez d’abord créer une table dans votre catalogue distant. Après cela, vous pouvez utiliser la syntaxe CREATE ICEBERG TABLE (catalogue Iceberg REST) pour créer une table Iceberg dans Snowflake et écrire dedans.

Pour le Catalogue de données AWS Glue : La suppression d’une table gérée en externe via Snowflake ne supprime pas les fichiers de table sous-jacents. Ce comportement est spécifique à la mise en œuvre du Catalogue de données AWS Glue.

Vous ne pouvez pas supprimer une table Amazon S3 via Snowflake. Le service Amazon S3 Tables requiert que l’option purge soit spécifiée avec la commande DROP, que Snowflake ne prend actuellement pas en charge.

Les suppressions de position au niveau des lignes sont prises en charge pour les tables stockées sur Amazon S3, Azure ou Google Cloud. Les suppressions au niveau des lignes avec des fichiers de suppression d’égalité ne sont pas prises en charge. Pour plus d’informations sur les suppressions au niveau des lignes, consultez Utiliser les suppressions de niveau ligne. Pour désactiver les suppressions de position, qui permettent l’exécution des opérations DML en mode copie sur écriture, définissez le paramètre ENABLE_ICEBERG_MERGE_ON_READ sur FALSE au niveau de la table, du schéma ou de la base de données.

L’écriture dans des tables gérées en externe avec les types de données Iceberg suivants n’est pas prise en charge :

uuid

fixed(L)

Les fonctionnalités suivantes ne sont actuellement pas prises en charge lorsque vous utilisez Snowflake pour écrire dans des tables Iceberg gérées en externe :

Chiffrement côté serveur (SSE) pour les volumes externes Azure.

Transactions à plusieurs instructions. Snowflake ne prend en charge que les transactions à validation automatique.

Conversion en tables gérées par Snowflake

Catalogues Iceberg externes non conformes au protocole REST Iceberg

Utilisation de l’option OR REPLACE lors de la création d’une table

Utilisation de la syntaxe CREATE ICEBERG TABLE (base de données liée au catalogue) … AS SELECT si vous utilisez l’un des catalogues suivants comme catalogue distant :

AWS Glue

Catalogue Databricks Unity

Vous pouvez également utiliser la syntaxe CREATE ICEBERG TABLE (catalogue Iceberg REST) pour créer une table Iceberg vide et ensuite utiliser une instruction INSERT INTO … SELECT pour insérer des données dans la table vide. Cependant, cette alternative utilise deux transactions distinctes, de sorte qu’elle ne garantit pas l’atomicité.

Pour la création de schémas dans une base de données liée à un catalogue, tenez compte des points suivants :

La commande CREATE SCHEMA crée un espace de noms correspondant dans votre catalogue distant uniquement lorsque vous utilisez une base de données liée au catalogue.

Les options ALTER et CLONE ne sont pas prises en charge.

Les délimiteurs ne sont pas pris en charge pour les noms de schéma. Seuls les noms de schéma alphanumériques sont pris en charge.

Vous pouvez définir une taille de fichier cible pour les fichiers Parquet d’une table. Pour plus d’informations, voir Définir une taille de fichier cible.

Pour les services de stockage Cloud Azure : Snowflake ne prend en charge que les écritures gérées en externe pour les tables Iceberg qui utilisent les services suivants pour le stockage externe :

Stockage d’objets Blob

Data Lake Storage Gen2

Fonction de prévisualisation — En accès libre

Disponible pour tous les comptes.

La connexion de Snowflake au stockage Data Lake Storage Gen2 à l’aide d’un volume externe est disponible en avant-première publique. Cette configuration permet des écritures gérées en externe dans des catalogues qui sont uniquement configurés pour utiliser Data Lake Storage, comme le catalogue Unity. Pour plus d’informations, voir Configuration d’un volume externe pour Azure

Note

La connexion de Snowflake au stockage Data Lake Storage Gen2 via des identifiants de connexion distribués par catalogue n’est pas prise en charge.

Usage général v1

Usage général v2

Microsoft Fabric OneLake

Partage :

Le partage avec une annonce n’est actuellement pas pris en charge.

Le partage direct n’est actuellement pas pris en charge.

Accès par des clients tiers aux données et métadonnées Iceberg

Les clients tiers ne peuvent pas ajouter, supprimer ou appliquer d’opération upsert à des données dans les tables Iceberg qui utilisent Snowflake comme catalogue.

Optimisation des tables

Snowflake ne prend pas en charge la suppression des fichiers orphelins pour les tables Iceberg gérées par Snowflake. Si vous constatez un décalage entre l’utilisation du stockage de votre stockage Cloud externe et celle de Snowflake, il se peut que vous ayez des fichiers orphelins dans votre stockage Cloud externe. Pour voir votre utilisation du stockage pour Snowflake, vous pouvez utiliser les Vue TABLE_STORAGE_METRICS ou les Vue TABLE_STORAGE_METRICS. Si vous constatez un décalage, contactez le Support Snowflake pour obtenir de l’aide pour déterminer si vous avez des fichiers orphelins et les supprimer.
Pour les tables Iceberg gérées par Snowflake, si une opération DML échoue de manière inattendue et s’annule, certains fichiers Parquet peuvent être écrits dans votre stockage Cloud externe, mais ils ne seront pas suivis ou référencés par les métadonnées de vos tables Iceberg. Ces fichiers Parquet sont des fichiers orphelins.

Moteurs de requêtes externe via Snowflake Horizon Catalog

Cette section répertorie les considérations relatives à l’accès, à l’interrogation et à l’écriture dans les tables Iceberg avec un moteur de requête externe.

Tenez compte des points suivants lorsque vous interrogez des tables Iceberg avec un moteur de requête externe :

Iceberg
- Pour les tables dans Snowflake :
  - Seules les tables Iceberg gérées par Snowflake sont prises en charge.
Annonces :
- Les tables Iceberg que vous partagez via l’exécution automatique pour les annonces ne sont pas accessibles via l’API Horizon Iceberg REST Catalog du compte de consommateur.
Réseau et connexion privée :
- L’utilisation de politiques réseau définies au niveau de l’utilisateur n’est pas prise en charge avec cette fonctionnalité.
- Pour Règles réseau gérées par Snowflake, les adresses IP de sortie statiques ne sont pas prises en charge.
- L’octroi explicite de l’accès au point de terminaison Horizon Catalog à vos comptes de stockage n’est pas pris en charge. Nous vous recommandons d’utiliser une connexion privée pour sécuriser la connexion entre les moteurs externes et Horizon Catalog, ainsi qu’entre Horizon Catalog et votre compte de stockage.
Clouds :
- Commercial : Cette fonctionnalité n’est prise en charge que pour les tables Iceberg gérées par Snowflake et stockées sur Amazon S3, Google Cloud ou Azure pour toutes les régions de Cloud. Le stockage non AWS compatible avec S3 n’est pas encore pris en charge.
- FedRAMP (modéré) : Cette fonctionnalité est prise en charge pour les tables Iceberg gérées par Snowflake qui sont stockées sur les déploiements FedRAMP (modérés) sur AWS Gov Commercial (US) dans les régions us-east-1 et us-west-2.
- Pour les tables Iceberg stockées sur Amazon S3 :
  - Si vous voulez utiliser le chiffrement SSE-KMS, contactez le support client ou l’équipe de votre compte pour obtenir de l’aide sur l’activation de l’accès.
    
    Note
    
    L’écriture dans les volumes externes chiffrés par KMS n’est pas prise en charge.
- Pour les tables Iceberg stockées sur Azure :
  - Le réseau virtuel Azure (VNet) n’est pas pris en charge.
Authentification :
- Pour l’authentification par paire de clés, la rotation de la paire de clés n’est pas prise en charge.
- La fédération d’identité de charge de travail n’est pas prise en charge avec cette fonctionnalité.

Tenez compte des points suivants lorsque vous interrogez (lisez) des tables Iceberg avec un moteur de requête externe :

Iceberg
- La requête dans les tables suivantes n’est pas prise en charge :
  - Tables distantes
  - Tables natives Snowflake
  - Tables Iceberg gérées en externe, y compris les tables Iceberg basées sur Delta et les tables Iceberg gérées par Snowflake que vous avez chargées avec des données provenant de fichiers de données Parquet compatibles avec Iceberg en utilisant la commande de table COPY INTO
- La lecture des tables Iceberg v2 est prise en charge.
- La lecture des tables Iceberg V3 (avant-première publique) est prise en charge pour les fonctionnalités suivantes :
  - Type de données de variante
  - Lignée de lignes
  Toutes les autres fonctionnalités Iceberg V3, y compris les valeurs par défaut et le type de données géographique, ne sont pas prises en charge.
Contrôle d’accès :
- Les tables protégées par les politiques de données à granularité fine suivantes sont accessibles via Apache Spark™ via Snowflake Horizon Catalog :
  - Politiques de masquage
  - Politiques de masquage basées sur les balises
  - Politiques d’accès aux lignes
  Pour plus d’informations, voir Renforcer les politiques de protection des données lors de l’interrogation de tables Apache Iceberg™ Apache Spark™.
Tables clonées et converties :
- La lecture des tables clonées ou converties n’est pas prise en charge avec les identifiants de connexion distribués. Pour lire ces tables, utilisez un accès direct au stockage d’objets.

Tenez compte des points suivants lorsque vous écrivez sur les tables Iceberg avec un moteur de requête externe :

Opérations de table :
- Vous ne pouvez pas spécifier un emplacement de base avec votre instruction CREATETABLE.
  
  Lorsque vous créez une table gérée par Snowflake sans spécifier d’emplacement de base, Snowflake construit le chemin suivant pour votre table : STORAGE_BASE_URL/database/schema/table_name.randomId/[data | metadata]/
- CREATE TABLE AS SELECT (CTAS) depuis un moteur externe n’est pas pris en charge.
- Les suppressions d’égalité ne sont pas prises en charge.
- Vous ne pouvez pas écrire dans des tables en utilisant des suppressions au niveau des lignes ; seul le mode copie sur écriture est pris en charge.
- La création de balises et de branches Iceberg n’est pas prise en charge.
- Les écritures du moteur externe ne sont prises en charge que sur la version 2 d’Iceberg. L’écriture dans des tables Iceberg version 3 (v3) (avant-première publique) n’est actuellement pas prise en charge.
- L’écriture dans les volumes externes chiffrés par KMS n’est pas prise en charge.
- L’écriture dans des tables dynamiques dans Snowflake n’est pas prise en charge.
- L’écriture dans des tables Iceberg partagées n’est pas prise en charge.
- L’enregistrement des tables Iceberg n’est pas pris en charge.
Opérations de maintenance
- Vous ne pouvez pas restaurer une table sur un instantané précédent.
- L’opération d’expiration de l’instantané n’est pas prise en charge.
- Vous ne pouvez pas mettre à niveau une table Iceberg de v2 vers v3.
Tables clonées et converties :
- L’écriture dans des tables clonées ou converties n’est pas prise en charge avec les identifiants de connexion distribués. Pour écrire dans ces tables, connectez votre moteur de requête externe directement au stockage d’objets dans lequel vos tables sont stockées.
- Vous ne pouvez pas écrire dans une table Iceberg qui a été convertie de gérée en externe à gérée par Snowflake.
Flux :
- Sur les tables Iceberg V2, les opérations de copie sur écriture font que les flux standard représentent une ligne mise à jour ou déplacée comme un enregistrement DELETE suivi d’un enregistrement INSERT pour la même ligne.
Politiques de contrôle d’accès détaillées :
- L’écriture dans des tables disposant de politiques de contrôle d’accès détaillées ou de balises n’est pas prise en charge.

Framework des applications natives

Vous pouvez partager des tables Iceberg avec des consommateurs via le Framework des applications natives Snowflake. Prêtez attention aux restrictions suivantes :

Les tables Iceberg partagées via une application native sont en lecture seule pour les consommateurs.

L’exécution automatique inter-cloud n’est pas prise en charge pour les applications qui partagent des tables Iceberg.

Les consommateurs doivent explicitement activer la fonctionnalité restreinte EXTERNAL_DATA dans l’application avant que celle-ci ne puisse résoudre les tables Iceberg. Pour plus d’informations, voir Demander l’accès aux tables externes et Apache Iceberg™.

Fonctionnalités non prises en charge

Les fonctionnalités Snowflake suivantes ne sont actuellement pas prises en charge pour toutes les tables Iceberg :

Classement

Fail-safe

Tables hybrides

Chiffrement Snowflake

Évolution du schéma Snowflake

Balisage à l’aide de la ASSOCIATE_SEMANTIC_CATEGORY_TAGS procédure stockée

Tables temporaires et transitoires

Les fonctionnalités suivantes ne sont pas prises en charge pour les tables Iceberg gérées en externe :

Clonage

Clustering

Flux standard et flux d’ajout uniquement Les flux à insertion uniquement sont pris en charge.

Réplication de tables Iceberg, de volumes externes ou d’intégrations de catalogue