Intégrer Apache Hive metastores à Snowflake¶

Vous pouvez utiliser le connecteur Hive metastore pour Snowflake afin d’intégrer Apache Hive metastores à Snowflake à l’aide de tables externes. Le connecteur détecte les événements de metastore et les transmet à Snowflake pour que les tables externes soient synchronisées avec le metastore Hive. Grâce à cette fonctionnalité, les utilisateurs peuvent gérer leur schéma dans Hive tout en interrogeant le metastore à partir de Snowflake.

L’Apache Hive Metastore doit être intégré au stockage Cloud sur l’une des plates-formes Cloud suivantes :

Amazon Web Services
Google Cloud
Microsoft Azure

Dans ce chapitre :

Installer et configurer le connecteur Hive metastore¶

Cette section décrit comment installer et configurer le connecteur Hive metastore pour Snowflake.

Conditions préalables¶

Le connecteur Hive pour Snowflake présente les conditions préalables suivantes :

Base de données et schémas Snowflake:

Stockez les tables externes mappées sur les tables Hive du metastore.

Utilisateur Snowflake désigné:

Le connecteur est configuré pour exécuter des opérations sur les tables externes en tant que cet utilisateur.

Intégration de stockage:

Grâce aux intégrations de stockage, vous pouvez configurer un accès sécurisé au stockage dans le Cloud externe sans transmettre d’identifiants de fournisseur Cloud explicites tels que des clés secrètes ou des jetons d’accès. Créez une intégration de stockage pour accéder aux emplacements de stockage dans le Cloud référencés dans les tables Hive à l’aide de CREATE STORAGE INTEGRATION.

Le paramètre STORAGE_ALLOWED_LOCATIONS de l’intégration de stockage doit répertorier les mêmes conteneurs de stockage que ceux référencés dans le paramètre Location des tables Hive de votre metastore.

Rôle:

Le rôle doit être attribué à l’utilisateur Snowflake désigné et inclure les privilèges d’objet suivants sur les autres objets Snowflake identifiés dans cette section :

Objet	Privilèges
Base de données	USAGE
Schéma	USAGE , CREATE STAGE , CREATE EXTERNAL TABLE
Intégration de stockage	USAGE

Étape 1 : Installation du connecteur¶

Effectuez les étapes suivantes pour installer le connecteur :

À partir du Maven Central Repository (Sonatype ou https://repo1.maven.org/maven2/net/snowflake/snowflake-hive-metastore-connector/), téléchargez le fichier JAR et le fichier de configuration XML du connecteur.
Copiez le fichier JAR dans le répertoire suivant :

Amazon S3 ou Google Cloud Storage:

Répertoire lib dans le classpath de Hive. L’emplacement peut varier en fonction de l’installation de Hive. Pour déterminer le chemin de classe, vérifiez la variable d’environnement HIVE_AUX_JARS_PATH .

Microsoft Azure HDInsight:

Répertoire hive dans le répertoire utilisateur ; par exemple, /usr/hdp/<hdinsight_version>/atlas/hook/hive/. L’emplacement peut varier en fonction de la version Azure HDInsight et des choix d’installation.

Astuce

Un exemple de script personnalisé est disponible dans le dossier scripts de la page `GitHub du projet pour Hive<https://github.com/snowflakedb/snowflake-hive-metastore-connector/>`_. Le script ajoute le fichier JAR et les fichiers de configuration dans les bons répertoires.
Créez un fichier nommé snowflake-config.xml dans le répertoire suivant :

Amazon S3 ou Google Cloud Storage:

Répertoire conf dans le classpath de Hive.

Microsoft Azure HDInsight:

Répertoire conf/conf.server dans le classpath de Hive.
Dans un éditeur de texte, ouvrez le fichier snowflake-config.xml, puis remplissez le fichier avec les propriétés <name> suivantes et les <values> correspondantes :
snowflake.jdbc.username
Spécifie le nom de connexion de l’utilisateur Snowflake désigné pour les opérations d’actualisation sur les tables externes.

snowflake.jdbc.password
Spécifie le mot de passe pour le nom de connexion.

Note

Vous pouvez définir un espace réservé pour le mot de passe en fonction d’une propriété système ou d’une variable d’environnement, en fonction de votre version de Hadoop. La configuration se comporte comme les autres configurations Hadoop. Pour plus d’informations, consultez la documentation Hadoop.

snowflake.jdbc.privateKey

Vous pouvez également vous authentifier à l’aide de l’authentification par paire de clés. Pour des instructions sur la façon de générer la paire de clés et d’attribuer la clé à un utilisateur, consultez Authentification par paire de clés et rotation de paires de clés.

Pour transmettre la clé privée à Snowflake, ajoutez la propriété snowflake.jdbc.privateKey au fichier snowflake-config.xml. Ouvrez le fichier de la clé privée (par exemple, rsa_key.p8) dans un éditeur de texte. Copiez les lignes entre -----BEGIN RSA PRIVATE KEY----- et -----END RSA PRIVATE KEY----- comme valeur de la propriété ou de la variable d’environnement.
snowflake.jdbc.account
Spécifie le nom de votre compte (fourni par Snowflake), par exemple, xy12345.

snowflake.jdbc.db
Spécifie une base de données Snowflake existante à utiliser pour l’intégration du metastore Hive. Pour plus d’informations, consultez la section`Conditions préalables`_ plus haut dans cette rubrique.

snowflake.jdbc.schema
Spécifie un schéma Snowflake existant dans la base de données spécifiée. Pour plus d’informations, consultez la section`Conditions préalables`_ plus haut dans cette rubrique.

Pour faire correspondre plusieurs schémas de votre Hive Metastore aux schémas correspondants de votre base de données Snowflake, définissez la propriété snowflake.hive-metastore-listener.schemas en plus de la propriété actuelle. Spécifiez le schéma Snowflake par défaut dans la propriété snowflake.jdbc.schema.

snowflake.jdbc.role
Spécifie le rôle de contrôle d’accès à utiliser par le connecteur Hive. Le rôle spécifié doit être un rôle existant qui était déjà affecté à l’utilisateur spécifié.

Si aucun rôle n’est spécifié ici, le connecteur Hive utilise le rôle par défaut pour l’utilisateur spécifié.

snowflake.jdbc.connection
Spécifie la chaîne de connexion de votre compte Snowflake au format suivant :

jdbc:snowflake://<account_identifier>.snowflakecomputing.com

Où :

<account_identifier>
Identificateur unique pour votre compte Snowflake.

L’exemple suivant montre le format de l’identificateur de compte à privilégier :

organization_name-account_name
Noms de votre organisation et de votre compte Snowflake. Pour plus d’informations, voir Format 1 (recommandé) : nom du compte dans votre organisation.

Vous pouvez également indiquer votre localisateur de compte ainsi que la région, dans lesquelles le compte est hébergé. Pour plus d’informations, voir Format 2 : localisateur de compte dans une région.

snowflake.hive-metastore-connector.integration
Spécifie le nom de l’objet d’intégration de stockage à utiliser pour un accès sécurisé aux emplacements de stockage externes référencés dans les tables Hive du metastore. Pour plus d’informations, consultez la section`Conditions préalables`_ plus haut dans cette rubrique.

snowflake.hive-metastore-listener.schemas
Spécifie une liste séparée par des virgules de schémas Snowflake qui existent dans la base de données Snowflake spécifiée dans snowflake.jdbc.db.

Lorsqu’une table est créée dans le métastore de Hive, le connecteur vérifie si cette propriété répertorie un schéma Snowflake portant le même nom que le schéma ou la base de données de Hive qui contient la nouvelle table :

Si un schéma Snowflake portant le même nom est répertorié, le connecteur crée une table externe dans ce schéma.

Si un schéma Snowflake du même nom n’est pas répertorié, le connecteur crée une table externe dans le schéma par défaut, qui est défini dans la propriété snowflake.jdbc.schema .

La table externe porte le même nom que la nouvelle table Hive.

Note

Cette propriété nécessite la version 0.5.0 (ou supérieure) du connecteur Hive.
(Facultatif) Ajoutez la propriété suivante :
snowflake.hive-metastore-listener.database-filter-regex
Spécifie les noms de toutes les bases de données du métastore Hive à ignorer avec l’intégration. Avec cette propriété, vous pouvez contrôler les bases de données à intégrer à Snowflake. Cette option est particulièrement utile lorsque plusieurs tables ont le même nom dans les bases de données Hive. Actuellement, dans cette situation, le connecteur Hive crée la première table avec le nom dans la base de données cible Snowflake mais ignore les autres tables portant le même nom.

Par exemple, supposons que les bases de données mydb1, mydb2 et mydb3 contiennent toutes une table nommée table1. Vous pouvez omettre toutes les bases de données avec la convention de dénomination mydb<number> à l’exception de mydb1 en ajoutant l’expression régulière mydb[^1] en tant que valeur de propriété.

Exemple de nœud de propriété

<configuration> .. <property> <name>snowflake.hive-metastore-listener.database-filter-regex</name> <value>mydb[^1]</value> </property> </configuration>

Copy

Exemple de fichier snowflake-config.xml

<configuration> <property> <name>snowflake.jdbc.username</name> <value>jsmith</value> </property> <property> <name>snowflake.jdbc.password</name> <value>mySecurePassword</value> </property> <property> <name>snowflake.jdbc.role</name> <value>custom_role1</value> </property> <property> <name>snowflake.jdbc.account</name> <value>myaccount</value> </property> <property> <name>snowflake.jdbc.db</name> <value>mydb</value> </property> <property> <name>snowflake.jdbc.schema</name> <value>myschema</value> </property> <property> <name>snowflake.jdbc.connection</name> <value>jdbc:snowflake://myaccount.snowflakecomputing.com</value> </property> <property> <name>snowflake.hive-metastore-listener.integration</name> <value>s3_int</value> </property> <property> <name>snowflake.hive-metastore-listener.schemas</name> <value>myschema1,myschema2</value> </property> </configuration>

Copy
Enregistrez les modifications dans le fichier.
Modifiez le fichier de configuration Hive existant (hive-site.xml) :
Amazon S3 ou Google Cloud Storage:
Ouvrez le fichier hive-site.xml dans un éditeur de texte. Ajoutez le connecteur au fichier de configuration, comme suit :
<configuration> ... <property> <name>hive.metastore.event.listeners</name> <value>net.snowflake.hivemetastoreconnector.SnowflakeHiveListener</value> </property> </configuration>
Copy
Microsoft Azure HDInsight:
Suivez les étapes de la documentation Azure HDInsight pour modifier le fichier hive-site.xml . Ajoutez la propriété personnalisée suivante à la configuration du cluster :

hive.metastore.event.listeners=net.snowflake.hivemetastoreconnector.SnowflakeHiveListener

Vous pouvez également ajouter la propriété personnalisée dans le portail de gestion des clusters HDInsight :
1. Cliquez sur l’onglet Hive dans le menu de gauche » Configs » Advanced.
2. Faites défiler l’écran jusqu’à l’onglet Custom Hive Site.
3. Ajoutez la propriété personnalisée.
Note

Si d’autres connecteurs sont déjà configurés dans ce fichier, ajoutez le connecteur Hive pour Snowflake dans une liste séparée par des virgules dans le nœud <value> .
Enregistrez les modifications dans le fichier.
Redémarrez le service Hive Metastore.

Étape 2 : Validation de l’installation¶

Dans Hive, créez une nouvelle table.
Dans votre base de données et votre schéma Snowflake, interrogez la liste des tables externes à l’aide de SHOW EXTERNAL TABLES :
```
SHOW EXTERNAL TABLES IN <database>.<schema>;
```
Copy
Où database et schema sont la base de données et le schéma que vous avez spécifiés dans le fichier:file:snowflake-config.xml à l”Étape 1 : Installer le connecteur plus haut dans cette rubrique.

Les résultats devraient afficher une table externe portant le même nom que la nouvelle table Hive.

Les enregistrements de connecteur sont écrits dans les journaux du metastore Hive. Vous pouvez visualiser les requêtes exécutées par le connecteur dans la vue/fonction de sortie de Snowflake QUERY_HISTORY, comme pour les autres requêtes.

Intégrer des tables et des partitions Hive existantes à Snowflake¶

Pour intégrer des tables et des partitions Hive existantes dans Snowflake, exécutez la commande suivante dans Hive pour chaque table et partition :

ALTER TABLE <table_name> TOUCH [PARTITION partition_spec];

Copy

Pour plus d’informations, consultez la documentation Hive.

Sinon, Snowflake fournit un script pour synchroniser les tables et partitions Hive existantes. Pour plus d’informations, consultez la page de projet GitHub.

Important

Si une table externe portant le même nom que la table Hive existe déjà dans le schéma Snowflake correspondant de la base de données spécifiée dans la propriété snowflake.jdbc.db, la commande ALTER TABLE …. TOUCH ne recrée pas la table externe. Si vous devez recréer la table externe, supprimez la table externe (en utilisant DROP EXTERNAL TABLE) avant d’exécuter la commande ALTER TABLE … TOUCH dans le métastore de Hive.

Fonctionnalités prises en charge et non prises en charge¶

Les sections suivantes répertorient les fonctionnalités prises en charge et non prises en charge de l’intégration des Hive metastores Apache avec le connecteur Hive metastore pour Snowflake.

Types de table et opérations Hive pris en charge¶

Opérations Hive¶

Le connecteur prend en charge les opérations Hive suivantes :

Créer une table
Détruire une table
Modifier la table ajouter une colonne
Modifier la table détruire une colonne
Modifier (c’est-à-dire toucher) la table
Ajouter une partition
Détruire une partition
Modifier la partition (toucher)

Types de table Hive¶

Le connecteur prend en charge les types de tables Hive suivants :

Tables externes et gérées
Tables partitionnées et non partitionnées

Types de données Hive et Snowflake¶

La table suivante illustre la relation entre les types de données Hive et Snowflake :

Hive	Snowflake
BIGINT	BIGINT
BINARY	BINARY
BOOLEAN	BOOLEAN
CHAR	CHAR
DATE	DATE
DECIMAL	DECIMAL
DOUBLE	DOUBLE
DOUBLE PRECISION	DOUBLE
FLOAT	FLOAT
INT	INT
INTEGER	INT
NUMERIC	DECIMAL
SMALLINT	SMALLINT
STRING	STRING
TIMESTAMP	TIMESTAMP
TINYINT	SMALLINT
VARCHAR	VARCHAR
Tous les autres types de données	VARIANT

Formats de fichier et options pris en charge¶

Les formats de fichier de données et les options de format de fichier Hive suivants sont pris en charge :

CSV

Les options suivantes sont prises en charge à l’aide des propriétés SerDe (Serializer/Deserializer) :
- field.delim / separatorChar
- line.delim
- escape.delim / escapeChar
JSON
AVRO
ORC
PARQUET

Les options suivantes sont prises en charge à l’aide des propriétés de la table :
- parquet.compression.

Commandes, fonctionnalités et cas d’utilisation Hive non pris en charge¶

Le connecteur ne prend pas en charge les commandes, fonctionnalités et cas d’utilisation Hive suivants :

Vues Hive
Instructions ALTER autres que TOUCH, ADD COLUMNS et DROP COLUMNS
Propriétés SerDe personnalisées.
Modification d’une table Hive gérée existante pour qu’elle devienne une table Hive externe, ou inversement

Actualiser les métadonnées de tables externes pour refléter les événements de stockage dans le Cloud¶

Lorsque l’une des opérations Hive répertoriées dans Opérations Hive prises en charge et types de tables (plus haut dans cette rubrique) est exécutée sur une table, le connecteur Hive écoute les événements Hive, puis actualise les métadonnées de la table externe correspondante dans Snowflake.

Toutefois, le connecteur n’effectue pas l’actualisation des métadonnées de la table externe en fonction des événements du stockage dans le Cloud, tels que l’ajout ou la suppression de fichiers de données.

Pour actualiser les métadonnées d’une table externe afin de refléter les événements du stockage dans le Cloud, exécutez la commande respective ALTER TABLE … TOUCH pour votre table Hive partitionnée ou non. La commande TOUCH lit les métadonnées et les renvoie. Pour plus d’informations sur la commande, consultez la documentation Hive:

Table Hive partitionnée:

Exécutez la commande suivante :

ALTER TABLE <table_name> TOUCH PARTITION <partition_spec>;

Copy

Table Hive non partitionnée:

Exécutez la commande suivante :

ALTER TABLE <table_name> TOUCH;

Copy

Différences entre les tables Hive et les tables externes Snowflake¶

La liste suivante décrit les principales différences entre les tables Hive et les tables externes Snowflake.

Partitions:

Les partitions Snowflake sont composées de sous-chemins de l’emplacement de stockage référencé par la table, tandis que les partitions Hive n’ont pas cette contrainte. Si des partitions sont ajoutées dans les tables Hive qui ne sont pas des sous-chemins de l’emplacement de stockage, ces partitions ne sont pas ajoutées aux tables externes correspondantes dans Snowflake.

Par exemple, si l’emplacement de stockage associé à la table Hive (et à la table externe Snowflake correspondante) est s3://path/, tous les emplacements de partition de la table Hive doivent également porter le préfixe s3://path/.

Deux partitions Snowflake d’une même table externe ne peuvent pas pointer vers le même emplacement de stockage. Par exemple, les partitions suivantes sont en conflit les unes avec les autres :

ALTER EXTERNAL TABLE exttable ADD PARTITION(partcol='1') LOCATION 's3:///files/2019/05/12';

ALTER EXTERNAL TABLE exttable ADD PARTITION(partcol='2') LOCATION 's3:///files/2019/05/12';

Copy

Noms de colonne:

Les noms de colonnes Hive ne respectent pas la casse, mais les colonnes virtuelles Snowflake dérivées de VALUES sont sensibles à la casse. Si les tables Hive contiennent des colonnes avec des noms dont la casse est différente, les données de ces colonnes peuvent être NULLdans les colonnes correspondantes des tables externes Snowflake.