Paramétrez Openflow Connector for Google Sheets¶

Note

This connector is subject to the Snowflake Connector Terms.

Cette rubrique décrit les étapes pour paramétrer Openflow Connector for Google Sheets.

Conditions préalables¶

Assurez-vous d’avoir consulté À propos de Openflow Connector for Google Sheets.
Ensure that you have Configuration d’Openflow - BYOC or Set up Openflow - Snowflake Deployments.
Si vous utilisez Openflow - Snowflake Deployments, assurez-vous d’avoir consulté la configuration des domaines requis et d’avoir accordé l’accès aux domaines requis pour le Google Sheets connecteur.

Obtenir les identifiants de connexion¶

En tant qu’administrateur de Google Cloud, effectuez les tâches suivantes :

Assurez-vous que vous disposez des éléments suivants :
- Un utilisateur de Google disposant des autorisations Super Admin
- Un projet Google Cloud https://developers.google.com/workspace/guides/create-project avec les rôles suivants :
  - Administrateur de la politique de l’organisation
  - Administrateur de l’organisation
Activer la création de clés de compte de service. Google désactive par défaut la création de clés de compte de service. Cette politique de création de clés doit être désactivée pour que Snowflake Openflow utilise le compte de service JSON. Pour activer la création de clés de compte de service, effectuez les tâches suivantes :
1. Connectez-vous à l’adresse Google Cloud Console à l’aide d’un compte de superadministrateur ayant le rôle d’administrateur des politiques d’organisation.
2. Assurez-vous que vous êtes dans le projet associé à votre organisation, et non dans le projet de votre organisation.
3. Sélectionnez Organization Policies.
4. Sélectionnez la politique Disable service account key creation.
5. Sélectionnez Manage Policy et désactivez l’application de la loi.
6. Sélectionnez Set Policy.
Créez un compte de service et une clé.
Partagez la feuille de calcul Google Sheets avec l’adresse électronique du compte de service. L’adresse électronique se trouve dans le fichier du compte de service JSON sous le champ client_email. Paramétrez les autorisations de partage dans la visionneuse.

Paramétrage du compte Snowflake¶

En tant qu’administrateur de compte Snowflake, effectuez les tâches suivantes :

Créez un nouveau rôle ou utilisez un rôle existant et accordez le Privilèges de base de données.
Créez un nouvel utilisateur du service Snowflake avec le type SERVICE.
Autorisez l’utilisateur du service Snowflake le rôle que vous avez créé dans les étapes précédentes.
Configurez avec l’authentification par paire de clés pour l’utilisateur de Snowflake SERVICE de l’étape 2.
Snowflake recommande vivement cette étape. Configurez un gestionnaire de secrets pris en charge par Openflow, par exemple AWS, Azure et Hashicorp, et stockez les clés publiques et privées dans le magasin de secrets.

Note

Si, pour une raison quelconque, vous ne souhaitez pas utiliser un gestionnaire de secrets, il vous incombe de protéger les fichiers de clés publiques et privées utilisés pour l’authentification par paires de clés conformément aux politiques de sécurité de votre organisation.
1. Une fois le gestionnaire de secrets configuré, déterminez comment vous vous y authentifierez. Sur AWS, il est recommandé d’utiliser le rôle de l’instance EC2 associée à Openflow, car de cette manière, aucun autre secret ne doit être conservé.
2. Dans Openflow, configurez un fournisseur de paramètres associé à ce gestionnaire de secrets, à partir du menu hamburger en haut à droite. Naviguez jusqu’à Controller Settings » Parameter Provider, puis récupérez vos valeurs de paramètres.
3. À ce stade, tous les identifiants peuvent être référencés avec les chemins de paramètres associés et aucune valeur sensible ne doit être conservée dans Openflow.
Si d’autres utilisateurs de Snowflake ont besoin d’accéder aux documents bruts ingérés et aux tables ingérées par le connecteur (par exemple, pour un traitement personnalisé dans Snowflake), accordez à ces utilisateurs le rôle créé à l’étape 1.
Désignez un entrepôt à utiliser par le connecteur. Commencez par la taille d’entrepôt la plus petite, puis faites des essais en fonction du nombre de tables répliquées et de la quantité de données transférées. Les tables de grande taille s’adaptent généralement mieux aux entrepôts multi-clusters, plutôt qu’aux entrepôts de grande taille.

Définir le connecteur¶

En tant qu’ingénieur des données, effectuez les tâches suivantes pour installer et configurer le connecteur :

Installer le connecteur¶

Naviguez jusqu’à la page d’aperçu d’Openflow. Dans la section Featured connectors, sélectionnez View more connectors.
Sur la page des connecteurs Openflow, trouvez le connecteur et sélectionnez Add to runtime.
Dans la boîte de dialogue Select runtime, sélectionnez votre environnement d’exécution dans la liste déroulante Available runtimes.
Sélectionnez Add.

Note

Avant d’installer le connecteur, assurez-vous que vous avez créé une base de données et un schéma dans Snowflake pour que le connecteur puisse stocker les données ingérées.
Authentifiez-vous au déploiement avec les identifiants de votre compte Snowflake et sélectionnez Allow lorsque vous êtes invité à autoriser l’application d’exécution à accéder à votre compte Snowflake. Le processus d’installation du connecteur prend quelques minutes.
Authentifiez-vous auprès de l’environnement d’exécution avec les identifiants de votre compte Snowflake.

Le canevas Openflow apparaît avec le groupe de processus du connecteur ajouté.

Configuration du connecteur¶

Cliquez avec le bouton droit de la souris sur le groupe de processus importé et sélectionnez Parameters.
Renseignez les valeurs des paramètres requis comme décrit dans Paramètres de débit.

Paramètres de débit¶

La configuration de la définition du connecteur est divisée en trois contextes de paramètres :

Paramètres de la source Google Sheets: pour établir la connexion avec Google Sheets.
Paramètres de destination de Google Sheets: pour établir la connexion avec Snowflake.
Paramètres d’ingestion de Google Sheets: pour définir la configuration des données téléchargées depuis Google Sheets.

Note

Le contexte de paramètres Google Sheets Ingestion Parameters contient des détails spécifiques à la feuille de calcul. Vous devez donc créer de nouveaux contextes de paramètres pour chaque nouvelle feuille de calcul et chaque nouveau groupe de processus.

Pour créer un nouveau contexte de paramètre, allez dans le menu Openflow Canvas, sélectionnez Parameter Contexts et ajoutez un nouveau contexte de paramètre. Il hérite des paramètres des contextes de paramètres de destination et de paramètres de source de Google Sheets.

Les tables suivantes décrivent les paramètres de flux que vous pouvez configurer en fonction des contextes de paramètres :

Paramètres de destination de Google Sheets¶

Paramètre	Description	Obligatoire
Base de données de destination	La base de données dans laquelle les données seront conservées. Elle doit déjà exister dans Snowflake. Le nom est sensible à la casse. Pour les identificateurs sans guillemets, indiquez le nom en majuscules.	Oui
Schéma de destination	Le schéma dans lequel les données seront conservées, qui doit déjà exister dans Snowflake. Le nom est sensible à la casse. Pour les identificateurs sans guillemets, indiquez le nom en majuscules. Voir l’exemple suivant : `CREATE SCHEMA SCHEMA_NAME` ou `CREATE SCHEMA schema_name` : utilisez `SCHEMA_NAME`. `CREATE SCHEMA "schema_name"` ou `CREATE SCHEMA "SCHEMA_NAME"` : utilisez `schema_name` ou `SCHEMA_NAME`, respectivement.	Oui
Identificateur de compte Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : doit être vide. KEY_PAIR : nom du compte Snowflake au format [nom-organisation]-[nom-compte] où les données seront conservées.	Oui
Stratégie d’authentification Snowflake	Lorsque vous utilisez : Déploiement Snowflake Openflow ou BYOC : Utilisez SNOWFLAKE_SESSION_TOKEN. Ce jeton est géré automatiquement par Snowflake. Les déploiements BYOC doivent disposer de rôles d’exécution configurés au préalable pour utiliser SNOWFLAKE_SESSION_TOKEN. BYOC: Alternatively BYOC can use KEY_PAIR as the value for authentication strategy.	Oui
Clé privée de Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : doit être vide. KEY_PAIR : Doit correspondre à la clé privée RSA utilisée pour l’authentification. The RSA key must be formatted according to PKCS8 standards and have standard PEM headers and footers. Note that either a Snowflake Private Key File or a Snowflake Private Key must be defined.	Non
Fichier de clé privée de Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : Le fichier de la clé privée doit être vide. KEY_PAIR : Chargez le fichier qui contient la clé privée RSA utilisée pour l’authentification auprès de Snowflake, formatée conformément aux normes PKCS8 et possédant des en-têtes et des pieds de page PEM standards. La ligne d’en-tête commence par `-----BEGIN PRIVATE`. Pour charger le fichier de la clé privée, cochez la case Reference asset.	Non
Mot de passe de la clé privée de Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : doit être vide. KEY_PAIR : fournissez le mot de passe associé au fichier de la clé privée Snowflake.	Non
Rôle Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : Utilisez votre rôle d’exécution. Vous pouvez trouver votre rôle d’exécution dans l’UI d’Openflow, en naviguant jusqu’à View Details pour votre exécution. Stratégie d’authentification KEY_PAIR : Utilisez un rôle valide configuré pour votre utilisateur de service.	Oui
Nom d’utilisateur Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : doit être vide. KEY_PAIR : indiquez le nom d’utilisateur utilisé pour vous connecter à l’instance Snowflake.	Oui
Entrepôt Snowflake	Entrepôt Snowflake utilisé pour exécuter des requêtes.	Oui

Paramètres de la source de Google Sheets¶

Paramètre	Description
Compte de service JSON	Contenu du fichier contenant les identifiants du compte de service, tels que client_id, client_email et private_key. Copiez tout le contenu du fichier.

Paramètres d’ingestion de Google Sheets¶

La table suivante ne répertorie que les paramètres qui ne sont pas hérités d’autres contextes de paramètres.

Paramètre	Description
Option de rendu de la date et de l’heure	Détermine la manière dont les dates doivent être affichées en sortie. Vous pouvez sélectionner l’une des options suivantes : `SERIAL_NUMBER` et `FORMATTED_STRING`. Sélectionnez `SERIAL_NUMBER` uniquement lorsque le paramètre Option de rendu des valeurs est ensemble avec `UNFORMATTED_VALUE`. Pour plus d’informations, voir DateTimeRenderOption.
Base de données de destination	La base de données de destination dans laquelle la table de destination est créée.
Schéma de destination	Le schéma de destination dans lequel la table de destination est créée.
Préfixe de la table de destination	Le préfixe de la table de destination est l’endroit où sont stockées les données du rapport extraites de Google Sheets. Le connecteur crée une table de destination pour chaque plage. Si aucune plage n’est fournie, les noms de feuilles sont utilisés comme identificateurs de tables. La première ligne d’une feuille représente les noms des colonnes de la table de destination.
Plages	La liste des plages à récupérer dans la feuille de calcul. Si aucune plage n’est spécifiée, toutes les feuilles de la feuille de calcul spécifiée seront téléchargées. Fournissez chaque plage dans la notation A1 ou R1C1, séparée par une virgule. Par exemple : `Sheet1!A1:B2,Sheet2!D4:E5,Sheet3`.
Exécuter la planification	Exécutez une planification sur laquelle les données sont récupérées de Google Sheets et sauvegardées dans Snowflake. Par défaut, la stratégie de planification basée sur un temporisateur est utilisée et l’utilisateur spécifie un intervalle, par exemple `8h`.
Feuille de calcul ID	L’identificateur unique https://developers.google.com/sheets/api/guides/concepts d’une feuille de calcul. Vous le trouverez dans l’URL de la feuille de calcul.
Option de rendu de valeur	Détermine la manière dont les valeurs doivent être rendues en sortie. Vous pouvez sélectionner l’une des options suivantes : `FORMATTED_VALUE` et `UNFORMATTED_VALUE`. Si vous sélectionnez `FORMATTED_VALUE`, toutes les colonnes de la table de destination sont de type VARCHAR. Pour plus d’informations, voir ValueRenderOption.

Note

L’identificateur de la table de destination est une combinaison du préfixe de la table de destination et du nom de la plage et doit être unique. Si vous téléchargez des données à partir de plusieurs feuilles de calcul, ou de feuilles uniques, et que les noms des plages ne sont pas uniques, vous devez alors spécifier un préfixe de table de destination unique pour chaque flux. Le connecteur peut échouer, écrasant les tables de destination existantes, si les noms des tables de destination ne sont pas uniques.

Exécutez le flux¶

Cliquez avec le bouton droit de la souris sur l’avion et sélectionnez Enable all Controller Services.
Cliquez avec le bouton droit de la souris sur le groupe de processus importé et sélectionnez Start. Le connecteur démarre l’ingestion des données.

Note

Les fichiers importés . xlsx doivent être au format Google Sheets. Si vous importez des fichiers, assurez-vous que le fichier est converti au format Google Sheets avant d’exécuter les flux. Les feuilles de calcul dans un format autre que Google Sheets ne peuvent pas être lues. Pour plus d’informations, consultez Convertir les fichiers au format Google Sheets.