Tables de requêtes Apache Iceberg™ avec un moteur externe via Snowflake Horizon Catalog

Interrogez les tables Apache Iceberg™ gérées par Snowflake à l’aide d’un moteur de requête externe via Snowflake Horizon Catalog. Pour assurer cette interopérabilité avec les moteurs externes, Apache Polaris™ (en cours d’incubation) est intégré à Horizon Catalog. En outre, Horizon Catalog expose l’API Apache Iceberg™ REST (API Horizon Iceberg REST Catalog). Cette API vous permet de lire les tables en utilisant des moteurs de requête externes.

Pour interroger des tables Iceberg gérées par Snowflake avec un moteur de requête externe, vous pouvez utiliser cette fonctionnalité au lieu de synchroniser des tables Iceberg gérées par Snowflake avec Snowflake Open Catalog. Pour plus d’informations sur Open Catalog, voir Vue d’ensemble de Snowflake Open Catalog.

En connectant un moteur de requête externe à des tables Iceberg via Horizon Catalog, vous pouvez effectuer les tâches suivantes :

  • Utiliser n’importe quel moteur de requête externe qui prend en charge le protocole REST Iceberg ouvert pour interroger ces tables, comme Apache Spark™.

  • Interrogez des tables Iceberg gérées par Snowflake existantes et nouvelles dans un compte Snowflake nouveau ou existant à l’aide d’un seul point de terminaison Horizon Catalog.

  • Interrogez les tables en utilisant vos utilisateurs, rôles, politiques et authentifications existants dans Snowflake.

  • Utilisez des identifiants de connexion distribués.

Pour plus d’informations sur Snowflake Horizon Catalog, voir Catalogue Snowflake Horizon.

Le schéma suivant montre des moteurs de requête externes lisant des tables Iceberg gérées par Snowflake via Horizon Catalog et Snowflake lisant et écrivant dans ces tables :

Schéma qui montre des moteurs de requête externes lisant des tables Iceberg gérées par Snowflake via Horizon Catalog et Snowflake lisant et écrivant dans ces tables.

Facturation

  • API REST Iceberg de Horizon Catalog est disponible dans toutes les éditions de Snowflake.

  • Les requêtes API sont facturées à 0,5 crédit par million d’appels et sont facturées comme des services Cloud.

  • Pour l’accès aux données interrégionales, des frais standard de sortie des données interrégionales, comme indiqué dans la Table de consommation du service Snowflake sont applicables.

Note

La facturation de cette fonctionnalité est prévue pour la mi-2026, sous réserve de modifications.

Moteurs et catalogues externes pris en charge

Les tableaux suivants, bien que non exhaustifs, présentent de nombreux moteurs et catalogues externes qui s’intègrent dans l’API Horizon Iceberg REST Catalog. Cette intégration permet d’accéder aux tables Iceberg gérées par Snowflake via des systèmes externes.

Moteurs externes pris en charge

Les moteurs de requête externes suivants s’intègrent à l’API Horizon Iceberg REST Catalog :

Produit

Accéder aux tables Iceberg gérées par Snowflake via Horizon Catalog

Apache Doris™

Apache Flink™

Apache Spark™

Dremio

DuckDB

PyIceberg

StarRocks

Trino

Catalogues externes pris en charge

Les catalogues externes suivants s’intègrent à l’API Horizon Iceberg REST Catalog :

Produit

Accéder aux tables Iceberg gérées par Snowflake via Horizon Catalog

Commentaire

Apache Polaris™

AWS Glue

Pour savoir comment configurer cette intégration, voir Accéder aux données du catalogue Snowflake Horizon à ’”aide de la fédération de catalogues dans le catalogue AWS Glue Data au sein de blog AWS Big Data.

Palantir Foundry

Pour savoir comment configurer cette intégration, voir Tables Iceberg (tables virtuelles uniquement) dans la documentation Palantir.

Catalogue Databricks Unity

Non annoncé

Google BigLake Metastore

En cours de développement

Microsoft Fabric/Synapse

En cours de développement

Conditions préalables

Récupérez l’identificateur de compte de votre compte Snowflake contenant les tables Iceberg que vous souhaitez interroger. Pour obtenir des instructions, voir Identificateurs de compte. Vous spécifiez cet identificateur lorsque vous connectez un moteur de requête externe à vos tables Iceberg.

Astuce

Pour obtenir votre identificateur de compte en utilisant SQL, vous pouvez exécuter la commande suivante :

SELECT CURRENT_ORGANIZATION_NAME() || '-' || CURRENT_ACCOUNT_NAME();
Copy

(Facultatif) Connectivité privée

Pour une connectivité sécurisée, envisagez de configurer la connectivité privée entrante et sortante pour votre compte Snowflake lorsque vous accédez au point de terminaison Horizon Catalog.

Note

La connectivité privée n’est prise en charge que pour les tables Iceberg gérées par Snowflake et stockées sur Amazon S3 ou Azure Storage (ADLS).

Procédure d’interrogation des tables Iceberg à l’aide d’un moteur de requête externe

Pour interroger des tables Iceberg en utilisant un moteur de requête externe, procédez comme suit :

  1. Créer des tables Iceberg

  2. Configurer le contrôle d’accès

  3. Obtenir un jeton d’accès pour l’authentification

  4. Vérifier les autorisations du jeton d’accès

  5. (Facultatif) Configurer des politiques de protection des données

  6. Connecter un moteur de requête externe aux tables Iceberg via Horizon Catalog

  7. Interroger des tables Iceberg

Étape 1 : Créer des tables Iceberg

Important

Si vous souhaitez interroger des tables Iceberg gérées par Snowflake, vous pouvez ignorer cette étape.

Dans cette étape, vous créez des tables Iceberg gérées par Snowflake qui utilisent Snowflake comme catalogue, afin de pouvoir les interroger avec un moteur de requête externe. Pour obtenir des instructions, reportez-vous aux rubriques suivantes :

Étape 2 : Configurer le contrôle d’accès

Important

Si vous disposez déjà de rôles configurés avec accès aux tables Iceberg que vous souhaitez interroger, vous pouvez ignorer cette étape.

Dans cette étape, vous configurez le contrôle d’accès pour les tables Iceberg gérées par Snowflake que vous souhaitez interroger avec un moteur de requête externe. Par exemple, vous pouvez configurer les rôles suivants dans Snowflake :

  • Rôle data_engineer, qui a accès à tous les schémas et à toutes les tables Iceberg gérées par Snowflake dans une base de données.

  • Rôle data_analyst, qui a accès à un schéma de la base de données et a accès uniquement à deux tables Iceberg gérées par Snowflake dans ce schéma.

Configurer l’accès à vos tables Iceberg

Pour interroger des tables Iceberg, le rôle utilisé pour effectuer l’opération doit disposer du privilège USAGE sur le volume externe que vous utilisez pour vous connecter à votre stockage Cloud externe.

L’exemple suivant accorde le privilège USAGE pour un volume externe nommé my_ext_vol au un rôle nommé data_engineer.

GRANT USAGE ON EXTERNAL VOLUME my_ext_vol TO ROLE data_engineer;
Copy

Pour plus d’informations sur le privilège USAGE pour les volumes externes, voir Privilèges de volume externe.

Note

Pour interroger des tables Iceberg, le rôle utilisé pour effectuer l’opération doit également disposer du privilège SELECT sur la table Iceberg et des privilèges USAGE et MONITOR sur la base de données et le schéma parents. Pour un exemple de l’octroi de ces privilèges à un rôle, voir Exemple : Configurer un utilisateur de compte de service.

Exemple : Configurer un utilisateur de compte de service

L’exemple suivant configure un utilisateur de compte de service dans Snowflake avec un accès en lecture seule à une table Iceberg, comme suit :

  • Crée un rôle data_engineer.

  • Accorde le privilège USAGE au rôle data_engineer sur le volume externe my_ext_vol.

  • Accorde les privilèges USAGE et MONITOR au rôle data_engineer sur la base de données iceberg_test_db et son schéma public.

  • Accorde les privilèges SELECT sur la table Iceberg test_table.

  • Crée un utilisateur de service nommé horizon_rest_srv_account_user et attribue le rôle data_engineer à cet utilisateur.

CREATE OR REPLACE ROLE data_engineer;

GRANT USAGE ON EXTERNAL VOLUME my_ext_vol TO ROLE data_engineer;

GRANT USAGE,MONITOR ON DATABASE iceberg_test_db TO ROLE data_engineer;
GRANT USAGE,MONITOR ON SCHEMA iceberg_test_db.public TO ROLE data_engineer;

GRANT SELECT ON TABLE iceberg_test_db.public.test_table TO ROLE data_engineer;

CREATE OR REPLACE USER horizon_rest_srv_account_user TYPE=SERVICE DEFAULT_ROLE=data_engineer;

GRANT ROLE data_engineer TO USER horizon_rest_srv_account_user;
Copy

(Facultatif) Appliquer des autorisations à venir sur des tables Iceberg

Pour garantir l’accès à toutes les nouvelles tables Iceberg créées dans un schéma, utilisez la syntaxe GRANT … ON FUTURE ICEBERG TABLES.

L’exemple suivant accorde l’accès au rôle data_engineer à toutes les tables Iceberg créées sous un schéma nommé my_schema.

GRANT SELECT, REFERENCES ON FUTURE ICEBERG TABLES IN SCHEMA my_db.my_schema TO ROLE data_engineer;
Copy

Pour plus d’informations sur le contrôle d’accès dans Snowflake, consultez les rubriques suivantes :

Étape 3 : Obtenir un jeton d’accès pour l’authentification

Dans cette étape, vous obtenez un jeton d’accès, que vous devez avoir pour vous authentifier auprès du point de terminaison Horizon Catalog de votre compte Snowflake. Vous devez obtenir un jeton d’accès pour chaque utilisateur (service ou humain) et rôle configuré avec accès aux tables Iceberg gérées par Snowflake. Par exemple, vous devez obtenir un jeton d’accès pour un utilisateur avec le rôle DATA_ENGINEER et un autre utilisateur avec le rôle DATA_ANALYST.

Vous spécifierez ce jeton d’accès plus tard lorsque vous connectez un moteur de requête externe aux tables Iceberg via Horizon Catalog.

Vous pouvez obtenir un jeton d’accès en utilisant l’une des options d’authentification suivantes :

OAuth externe

Si vous utilisez OAuth externe, générez un jeton d’accès pour votre fournisseur d’identité. Pour obtenir des instructions, voir Présentation de External OAuth.

Note

Pour OAuth externe, vous pouvez également configurer votre connexion au moteur avec l’actualisation automatique du jeton au lieu de spécifier un jeton d’accès.

Authentification par paire de clés

Si vous utilisez l’authentification par paire de clés pour obtenir un jeton d’accès, vous devez signer un jeton Web JSON (JWT) avec votre clé privée.

Les étapes suivantes expliquent comment générer un jeton d’accès pour l’authentification par paire de clés :

  1. Configurer l’authentification par paire de clés

  2. Accorder un rôle à l’utilisateur

  3. Générer un jeton Web JSON (JWT)

  4. Générer un jeton d’accès

Étape 1 : Configurer l’authentification par paire de clés

Dans cette étape, vous effectuez les tâches suivantes :

  • Générer une clé privée.

  • Générer une clé publique

  • Stocker les clés privées et publiques en toute sécurité

  • Octroyer le privilège d’attribuer une clé publique à un utilisateur de Snowflake

  • Attribuer la clé publique à un utilisateur Snowflake

  • Vérifier l’empreinte digitale de la clé publique de l’utilisateur

Pour obtenir des instructions, voir Configuration de l’authentification par paire de clés.

Étape 2 : Accorder un rôle à l’utilisateur.

Exécuter la commande GRANT ROLE pour accorder le rôle Snowflake qui a des privilèges sur les tables que vous souhaitez interroger à l’utilisateur d’authentification par paire de clés. Par exemple, pour accorder le rôle ENGINEER à l’utilisateur my_service_user, exécutez les commandes suivantes :

GRANT ROLE ENGINEER to user my_service_user;
Copy

Étape 3 : Générer un jeton Web JSON (JWT)

Dans cette étape, vous utilisez SnowSQL pour générer un jeton Web JSON (JWT) pour l’authentification par paire de clés.

Note

Utilisez SnowSQL pour générer un JWT :

snowsql --private-key-path "<private_key_file>" \
  --generate-jwt \
  -h "<account_identifier>.snowflakecomputing.com" \
  -a "<account_locator>" \
  -u "<user_name>"
Copy

Où :

  • <private_key_file> is the path to your private key file that corresponds to the public key assigned to your Snowflake user. For example: /Users/jsmith/.ssh/rsa_key.p8.

  • <account_identifier> est l’identificateur de compte pour votre compte Snowflake, au format <organization_name>-<account_name>. Pour trouver l’identificateur de compte, voir Moteurs et catalogues externes pris en charge. Un exemple d’identificateur de compte est myorg-myaccount.

  • <account_locator> est le localisateur de compte pour votre compte Snowflake.

    Pour trouver votre localisateur de compte, reportez-vous à Localisez les informations de compte Snowflake dans Snowsight et notez le localisateur de compte dans la boîte de dialogue Account Details.

  • <user_name> est le nom d’utilisateur d’un utilisateur Snowflake dont la clé publique est attribuée à l’utilisateur.

Étape 4 : Générer un jeton d’accès

Important

Pour générer un jeton d’accès, vous devez d’abord générer un JWT. Vous devez d’abord générer un JWT parce que vous utilisez le JWT pour générer le jeton d’accès.

Utilisez une commande curl pour générer un jeton d’accès :

curl -i --fail -X POST "https://<account_identifier>.snowflakecomputing.com/polaris/api/catalog/v1/oauth/tokens" \
 --header 'Content-Type: application/x-www-form-urlencoded' \
 --data-urlencode 'grant_type=client_credentials' \
 --data-urlencode 'scope=session:role:<role>' \
 --data-urlencode 'client_secret=<JWT_token>'
Copy

Où :

  • <account_identifier> est l’identificateur de compte pour votre compte Snowflake, au format <organization_name>-<account_name>. Pour trouver l’identificateur de compte, voir Moteurs et catalogues externes pris en charge. Un exemple d’identificateur de compte est myorg-myaccount.

  • <role> est le rôle Snowflake auquel l’accès aux tables Iceberg est accordé, tel que ENGINEER.

  • <JWT_token> est le JWT que vous avez généré à l’étape précédente.

Jeton d’accès programmatique (PAT)

Si vous utilisez PATs, générez un PAT pour l’authentification.

Tout d’abord, vous générez un PAT, que vous utilisez pour connecter un moteur de requête externe à des tables Iceberg. Ensuite, vous générez un jeton d’accès, que vous n’utilisez que pour vérifier les autorisations de votre PAT.

Étape 1 : Générer un PAT

Pour des instructions sur la façon de configurer et de générer un PAT, voir Utilisation de jetons d’accès programmatique pour l’authentification.

L’exemple suivant crée un jeton d’accès programmatique (PAT) pour l’utilisateur du compte de service que vous avez créé à l’étape précédente en utilisant la commande ALTER USER … ADD PROGRAMMATIC ACCESS TOKEN (PAT) :

ALTER USER IF EXISTS HORIZON_REST_SRV_ACCOUNT_USER
ADD PAT HORIZON_REST_SRV_ACCOUNT_USER_PAT
  DAYS_TO_EXPIRY = 7
  ROLE_RESTRICTION = 'DATA_ENGINEER'
  COMMENT = 'HORIZON REST API PAT FOR SERVICE ACCOUNT';
Copy

Étape 2 : Générer un jeton d’accès pour votre PAT

Dans cette étape, vous générez un jeton d’accès pour votre PAT.

Attention

Vous ne spécifiez le jeton d’accès que vous générez à cette étape que lorsque vous vérifiez les autorisations pour votre PAT. Lorsque vous connectez un moteur de requête externe à des tables Iceberg, vous devez spécifier le PAT que vous avez généré à l’étape précédente, et non le jeton d’accès que vous générez à cette étape.

Utilisez une commande curl pour générer un jeton d’accès pour votre PAT :

curl -i --fail -X POST "https://<account_identifier>.snowflakecomputing.com/polaris/api/catalog/v1/oauth/tokens" \
 --header 'Content-Type: application/x-www-form-urlencoded' \
 --data-urlencode 'grant_type=client_credentials' \
 --data-urlencode 'scope=session:role:<role>' \
 --data-urlencode 'client_secret=<PAT_token>'
Copy

Où :

  • <account_identifier> est l’identificateur de compte pour votre compte Snowflake, au format <organization_name>-<account_name>. Pour trouver l’identificateur de compte, voir Moteurs et catalogues externes pris en charge. Un exemple d’identificateur de compte est myorg-myaccount.

  • <role> est le rôle Snowflake qui est attribué à votre PAT et a accès aux tables Iceberg que vous souhaitez interroger, par exemple ENGINEER.

  • <PAT_token> est la valeur du jeton PAT que vous avez généré à l’étape précédente.

Étape 4 : Vérifier les autorisations du jeton d’accès

À cette étape, vous vérifiez les autorisations pour le jeton d’accès que vous avez obtenu à l’étape précédente.

Vérifier l’accès au point de terminaison IRC Horizon

Utilisez une commande curl pour vérifier que vous avez l’autorisation d’accéder à votre point de terminaison IRC Horizon :

curl -i --fail -X GET "https://<account_identifier>.snowflakecomputing.com/polaris/api/catalog/v1/config?warehouse=<database_name>" \
-H "Authorization: Bearer <access_token>" \
-H "Content-Type: application/json"
Copy

Où :

  • <account_identifier> est l’identificateur de compte pour votre compte Snowflake, au format <organization_name>-<account_name>. Pour trouver l’identificateur de compte, voir Moteurs et catalogues externes pris en charge. Un exemple d’identificateur de compte est myorg-myaccount.

  • <access_token> est le jeton d’accès que vous avez généré. Si vous utilisez un PAT, cette valeur est le jeton d’accès que vous avez généré, et non le jeton d’accès personnel (PAT) que vous avez généré.

  • <database_name> est le nom de la base de données que vous souhaitez interroger.

    Important

    Vous devez spécifier le nom de la base de données en majuscules, même si elle a été créée avec des lettres minuscules.

Exemple de valeur de retour :

{
  "defaults": {
    "default-base-location": ""
  },
  "overrides": {
    "prefix": "MY-DATABASE"
  }
}

Récupérer les métadonnées d’une table

Vous pouvez également effectuer une requête GET pour récupérer les métadonnées d’une table. Snowflake utilise l’opération loadTable pour charger les métadonnées des tables depuis votre catalogue REST.

curl -i --fail -X GET "https://<account_identifier>.snowflakecomputing.com/polaris/api/catalog/v1/<database_name>/namespaces/<namespace_name>/tables/<table_name>" \
 -H "Authorization: Bearer <access_token>" \
 -H "Content-Type: application/json"
Copy

Où :

  • <account_identifier> est l’identificateur de compte pour votre compte Snowflake, au format <organization_name>-<account_name>. Pour trouver l’identificateur de compte, voir Moteurs et catalogues externes pris en charge. Un exemple d’identificateur de compte est myorg-myaccount.

  • <database_name> est la base de données de la table dont vous souhaitez récupérer les métadonnées.

  • <namespace_name> est l’espace de noms de la table dont vous souhaitez récupérer les métadonnées.

  • <table_name> est la table dont vous souhaitez récupérer les métadonnées.

  • <access_token> est le jeton d’accès que vous avez généré. Si vous utilisez un PAT, cette valeur est le jeton d’accès que vous avez généré, et non le jeton d’accès personnel (PAT) que vous avez généré.

Important

Vous devez spécifier les noms de base de données, les espaces de noms et les noms de tables en majuscules, même si l’objet a été créé avec des lettres minuscules.

(Facultatif) Étape 5 : Configurer des politiques de protection des données

Dans cette étape, vous configurez des politiques de protection des données pour les tables Iceberg. Si vous n’avez pas de tables à protéger à l’aide de politiques de données Snowflake, vous pouvez passer à l’étape suivante.

Note

Les tables protégées par les politiques de protection des données sont accessibles via l’API REST Horizon Iceberg et en utilisant Apache Spark™.

Pour obtenir des instructions sur la configuration des politiques de protection des données, consultez Configurer des politiques de protection des données sur les tables Iceberg accessibles via l’API REST Horizon Iceberg et en utilisant Apache Spark™.

Étape 6 : Connecter un moteur de requête externe aux tables Iceberg via Horizon Catalog

Dans cette étape, vous connectez un moteur de requête externe aux tables Iceberg via Horizon Catalog. Grâce à cette connexion, vous pouvez interroger les tables en utilisant le moteur de requête externe.

Les moteurs externes utilisent le point de terminaison Apache Iceberg™ REST exposé par Snowflake. Pour votre compte Snowflake, ce point de terminaison a le format suivant :

https://<account_identifier>.snowflakecomputing.com/polaris/api/catalog
Copy

L’exemple de code dans cette étape montre comment établir une connexion dans Spark. L’exemple de code est dans PySpark. Pour plus d’informations, consultez les sections suivantes :

Se connecter à l’aide de OAuth externe ou de l’authentification par paire de clés

Utilisez l’une des configurations suivantes pour vous connecter :

Connecter un moteur de requête externe sans appliquer de politiques de données

  • Pour connecter le moteur de requête externe aux tables Iceberg en utilisant l’OAuth externe ou l’authentification par paire de clés, utilisez l’exemple de code suivant :

Ce code n’applique pas de politiques de protection des données :

# Snowflake Horizon Catalog Configuration, change as per your environment

CATALOG_URI = "https://<account_identifier>.snowflakecomputing.com/polaris/api/catalog"
HORIZON_SESSION_ROLE = f"session:role:<role>"
CATALOG_NAME = "<database_name>" #provide in UPPER CASE

# Cloud Service Provider Region Configuration (where the Iceberg data is stored)
REGION = "eastus2"

# Paste the External Oauth Access token that you generated in Snowflake here
ACCESS_TOKEN = "<your_access_token>"

# Iceberg Version
ICEBERG_VERSION = "1.9.1"

def create_spark_session():
  """Create and configure Spark session for Snowflake Iceberg access."""
  spark = (
      SparkSession.builder
      .appName("SnowflakeIcebergReader")
      .master("local[*]")

# JAR Dependencies for Iceberg and Azure
      .config(
          "spark.jars.packages",
          f"org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:{ICEBERG_VERSION},"
          f"org.apache.iceberg:iceberg-aws-bundle:{ICEBERG_VERSION}"
          # for Azure storage, use the below package and comment above azure bundle
          # f"org.apache.iceberg:iceberg-azure-bundle:{ICEBERG_VERSION}"
      )

      # Iceberg SQL Extensions
      .config("spark.sql.extensions", "org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions")
      .config("spark.sql.defaultCatalog", CATALOG_NAME)

      # Horizon REST Catalog Configuration
      .config(f"spark.sql.catalog.{CATALOG_NAME}", "org.apache.iceberg.spark.SparkCatalog")
      .config(f"spark.sql.catalog.{CATALOG_NAME}.type", "rest")
      .config(f"spark.sql.catalog.{CATALOG_NAME}.uri", CATALOG_URI)
      .config(f"spark.sql.catalog.{CATALOG_NAME}.warehouse", CATALOG_NAME)
      .config(f"spark.sql.catalog.{CATALOG_NAME}.token", ACCESS_TOKEN)
      .config(f"spark.sql.catalog.{CATALOG_NAME}.scope", HORIZON_SESSION_ROLE)
      .config(f"spark.sql.catalog.{CATALOG_NAME}.client.region", REGION)

      # Required for vended credentials
      .config(f"spark.sql.catalog.{CATALOG_NAME}.header.X-Iceberg-Access-Delegation", "vended-credentials")
      .config("spark.sql.iceberg.vectorization.enabled", "false")
      .getOrCreate()
  )
  spark.sparkContext.setLogLevel("ERROR")
  return spark
Copy

Où :

  • <account_identifier> est votre identificateur de compte Snowflake pour le compte Snowflake qui contient les tables Iceberg que vous souhaitez interroger. Pour trouver cet identificateur, voir Moteurs et catalogues externes pris en charge.

  • <your_access_token> est le jeton d’accès que vous avez obtenu. Pour l’obtenir, voir. Étape 3 : Obtenir un jeton d’accès pour l’authentification.

    Note

    Pour OAuth externe, vous pouvez également configurer votre connexion au moteur avec l’actualisation automatique du jeton au lieu de spécifier un jeton d’accès.

  • <database_name> est le nom de la base de données de votre compte Snowflake qui contient les tables Iceberg gérées par Snowflake que vous souhaitez interroger.

    Note

    La propriété .warehouse dans Spark attend le nom de votre base de données Snowflake, et non le nom de votre entrepôt Snowflake.

  • <role> est le rôle dans Snowflake qui est configuré avec accès aux tables Iceberg que vous souhaitez interroger. Par exemple : DATA_ENGINEER.

Important

Par défaut, l’exemple de code est configuré pour les tables Apache Iceberg™ stockées sur Amazon S3. Si vos tables Iceberg sont stockées sur Azure Storage (ADLS), procédez comme suit :

  1. Commentez la ligne suivante : f"org.apache.iceberg:iceberg-aws-bundle:{ICEBERG_VERSION}"

  2. Ne commentez pas la ligne suivante : # f"org.apache.iceberg:iceberg-azure-bundle:{ICEBERG_VERSION}"

Connecter un moteur de requête externe avec des politiques de données appliquées

Se connecter à l’aide d’un jeton d’accès programmatique (PAT)

Utilisez l’une des configurations suivantes pour vous connecter :

Connecter un moteur de requête externe sans appliquer de politiques de données

  • Pour connecter le moteur de requête externe aux tables Iceberg en utilisant un jeton d’accès programmatique (PAT), utilisez l’exemple de code suivant :

Ce code n’applique pas de politiques de protection des données :

# Snowflake Horizon Catalog Configuration, change as per your environment

CATALOG_URI = "https://<account_identifier>.snowflakecomputing.com/polaris/api/catalog"
HORIZON_SESSION_ROLE = f"session:role:<role>"
CATALOG_NAME = "<database_name>" #provide in UPPER CASE

# Cloud Service Provider Region Configuration (where the Iceberg data is stored)
REGION = "eastus2"

# Paste the PAT you generated in Snowflake here
PAT_TOKEN = "<your_PAT_token>"

# Iceberg Version
ICEBERG_VERSION = "1.9.1"

def create_spark_session():
  """Create and configure Spark session for Snowflake Iceberg access."""
  spark = (
      SparkSession.builder
      .appName("SnowflakeIcebergReader")
      .master("local[*]")

# JAR Dependencies for Iceberg and Azure
      .config(
          "spark.jars.packages",
          f"org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:{ICEBERG_VERSION},"
          f"org.apache.iceberg:iceberg-aws-bundle:{ICEBERG_VERSION}"
          # for Azure storage, use the below package and comment above azure bundle
          # f"org.apache.iceberg:iceberg-azure-bundle:{ICEBERG_VERSION}"
      )

      # Iceberg SQL Extensions
      .config("spark.sql.extensions", "org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions")
      .config("spark.sql.defaultCatalog", CATALOG_NAME)

      # Horizon REST Catalog Configuration
      .config(f"spark.sql.catalog.{CATALOG_NAME}", "org.apache.iceberg.spark.SparkCatalog")
      .config(f"spark.sql.catalog.{CATALOG_NAME}.type", "rest")
      .config(f"spark.sql.catalog.{CATALOG_NAME}.uri", CATALOG_URI)
      .config(f"spark.sql.catalog.{CATALOG_NAME}.warehouse", CATALOG_NAME)
      .config(f"spark.sql.catalog.{CATALOG_NAME}.credential", PAT_TOKEN)
      .config(f"spark.sql.catalog.{CATALOG_NAME}.scope", HORIZON_SESSION_ROLE)
      .config(f"spark.sql.catalog.{CATALOG_NAME}.client.region", REGION)

      # Required for vended credentials
      .config(f"spark.sql.catalog.{CATALOG_NAME}.header.X-Iceberg-Access-Delegation", "vended-credentials")
      .config("spark.sql.iceberg.vectorization.enabled", "false")
      .getOrCreate()
  )
  spark.sparkContext.setLogLevel("ERROR")
  return spark
Copy

Où :

  • <account_identifier> est votre identificateur de compte Snowflake pour le compte Snowflake qui contient les tables Iceberg que vous souhaitez interroger. Pour trouver cet identificateur, voir Moteurs et catalogues externes pris en charge.

  • <your_PAT_token> est le PAT que vous avez obtenu. Pour l’obtenir, voir. Étape 3 : Obtenir un jeton d’accès pour l’authentification.

  • <role> est le rôle dans Snowflake qui est configuré avec accès aux tables Iceberg que vous souhaitez interroger. Par exemple : DATA_ENGINEER.

  • <database_name> est le nom de la base de données de votre compte Snowflake qui contient les tables Iceberg gérées par Snowflake que vous souhaitez interroger.

    Note

    La propriété .warehouse dans Spark attend le nom de votre base de données Snowflake, et non le nom de votre entrepôt Snowflake.

Important

Par défaut, l’exemple de code est configuré pour les tables Apache Iceberg™ stockées sur Amazon S3. Si vos tables Iceberg sont stockées sur Azure Storage (ADLS), procédez comme suit :

  1. Commentez la ligne suivante : f"org.apache.iceberg:iceberg-aws-bundle:{ICEBERG_VERSION}"

  2. Ne commentez pas la ligne suivante : # f"org.apache.iceberg:iceberg-azure-bundle:{ICEBERG_VERSION}"

Connecter un moteur de requête externe avec des politiques de données appliquées

Étape 7 : Interroger des tables Iceberg

Cette étape fournit les exemples de code suivants pour utiliser Apache Spark™ afin d’interroger des tables Iceberg :

  • Afficher les espaces de noms

  • Utiliser des espaces de noms

  • Afficher les tables

  • Interroger une table

Afficher les espaces de noms

spark.sql("show namespaces").show()
Copy

Utiliser l’espace de noms

spark.sql("use namespace <your_schema_name_in_snowflake>")
Copy

Afficher les tables

spark.sql("show tables").show()
Copy

Interroger une table

spark.sql("use namespace spark_demo")
spark.sql("select * from <your_table_name_in_snowflake>").show()
Copy

Considérations relatives à l’interrogation de tables Iceberg avec un moteur de requête externe

Tenez compte des points suivants lorsque vous interrogez des tables Iceberg avec un moteur de requête externe :

  • Iceberg

    • Pour les tables dans Snowflake :

      • Seules les tables Iceberg gérées par Snowflake sont prises en charge.

      • La requête dans les tables suivantes n’est pas prise en charge :

        • Tables distantes

        • Tables natives Snowflake

        • Tables Iceberg gérées en externe, y compris les tables Iceberg basées sur Delta et les tables Iceberg gérées par Snowflake que vous avez chargées avec des données provenant de fichiers de données Parquet compatibles avec Iceberg en utilisant la commande de table COPY INTO

    • Vous pouvez effectuer des requêtes, mais pas écrire dans des tables Iceberg.

    • Les lectures externes ne sont prises en charge que sur la version 2 ou antérieure d’Iceberg.

  • Contrôle d’accès :

  • Réseau et connexion privée :

    • L’utilisation de politiques réseau définies au niveau de l’utilisateur n’est pas prise en charge avec cette fonctionnalité.

    • Pour Règles réseau gérées par Snowflake, les adresses IP de sortie statiques ne sont pas prises en charge.

    • L’octroi explicite de l’accès au point de terminaison Horizon Catalog à vos comptes de stockage n’est pas pris en charge. Nous vous recommandons d’utiliser une connexion privée pour sécuriser la connexion entre les moteurs externes et Horizon Catalog, ainsi qu’entre Horizon Catalog et votre compte de stockage.

  • Annonces :

  • Clouds :

    • Cette fonctionnalité n’est prise en charge que pour les tables Iceberg gérées par Snowflake et stockées sur Amazon S3, Google Cloud ou Azure pour toutes les régions de Cloud. Le stockage non AWS compatible avec S3 n’est pas encore pris en charge.

    • Pour les tables Iceberg stockées sur Amazon S3 :

      • Si vous voulez utiliser le chiffrement SSE-KMS, contactez le support client ou l’équipe de votre compte pour obtenir de l’aide sur l’activation de l’accès.

    • Pour les tables Iceberg stockées sur Azure :

      • Le réseau virtuel Azure (VNet) n’est pas pris en charge.

  • Authentification :

    • Pour l’authentification par paire de clés, la rotation de la paire de clés n’est pas prise en charge.

    • La fédération d’identité de charge de travail n’est pas prise en charge avec cette fonctionnalité.