Paramétrez Openflow Connector for Excel¶
Note
Le connecteur est soumis aux conditions d’utilisation du connecteur.
Cette rubrique décrit les étapes pour paramétrer Openflow Connector for Excel.
Conditions préalables¶
Assurez-vous d’avoir consulté À propos de Openflow Connector for Excel.
Assurez-vous que vous avez paramétré Openflow.
Obtenir les identifiants de connexion¶
Cette section décrit les étapes à suivre pour obtenir vos identifiants de connexion afin de configurer le connecteur. En fonction de votre source de données,
Obtenir les identifiants de connexion AWS¶
En tant qu’administrateur AWS, effectuez les tâches suivantes :
Connectez-vous à votre console AWS IAM.
Sélectionnez le numéro sous Users, puis Create user.
Spécifiez le nom de l’utilisateur, le groupe et les autorisations supplémentaires si nécessaire. L’utilisateur doit avoir au moins
s3:GetObject
l’accès aux objets lus par le connecteur depuis le compartiment S3.Une fois l’utilisateur créé, dans la vue de l’utilisateur, naviguez jusqu’à Security Credentials » Access Keys.
Sélectionnez Create access key. La nouvelle clé d’accès ne doit permettre l’accès qu’à des ressources spécifiques. Pour une meilleure sécurité et un meilleur contrôle d’accès, Snowflake recommande de n’autoriser l’accès qu’à des compartiments S3 spécifiques.
Prenez note de Access Key et Secret Access Key.
Paramétrage du compte Snowflake¶
En tant qu’administrateur de compte Snowflake, effectuez les tâches suivantes :
Créez un nouveau rôle ou utilisez un rôle existant.
Créez un nouvel utilisateur du service Snowflake avec le type SERVICE.
Autorisez l’utilisateur du service Snowflake le rôle que vous avez créé dans les étapes précédentes.
Configurez avec l’authentification par paire de clés pour l’utilisateur de Snowflake SERVICE de l’étape 2.
Fortement recommandé Configurez un gestionnaire de secrets pris en charge par Openflow, par exemple, AWS, Azure et Hashicorp, et stockez les clés publiques et privées dans le magasin de secrets.
Note
Si vous ne souhaitez pas utiliser un gestionnaire de secrets, il vous incombe de protéger les fichiers de clés publiques et de clés privées utilisés pour l’authentification par paires de clés conformément aux politiques de sécurité de votre organisation.
Une fois le gestionnaire de secrets configuré, déterminez comment vous vous y authentifierez. Sur AWS, il est recommandé d’utiliser le rôle de l’instance EC2 associée à Openflow afin qu’aucun autre secret ne doive être conservé.
Dans Openflow, configurez un Parameter Provider associé à ce Secrets Manager, à partir du menu hamburger en haut à droite. Naviguez vers Controller Settings » Parameter Provider et récupérez les valeurs de vos paramètres.
À ce stade, tous les identifiants peuvent être référencés avec les chemins de paramètres associés et aucune valeur sensible ne doit être conservée dans Openflow.
Si d’autres utilisateurs de Snowflake ont besoin d’accéder aux documents bruts ingérés et aux tables ingérées par le connecteur (par exemple, pour un traitement personnalisé dans Snowflake), accordez à ces utilisateurs le rôle créé à l’étape 1.
Créez une base de données et un schéma dans Snowflake pour que le connecteur puisse stocker les données ingérées. Accordez les Privilèges de base de données requis au rôle créé lors de la première étape. Remplacez l’espace réservé au rôle par la valeur réelle et utilisez les commandes SQL suivantes :
CREATE DATABASE excel_destination_db; CREATE SCHEMA excel_destination_db.excel_destination_schema; GRANT USAGE ON DATABASE excel_destination_db TO ROLE <excel_connector_role>; GRANT USAGE ON SCHEMA excel_destination_db.excel_destination_schema TO ROLE <excel_connector_role>; GRANT CREATE TABLE ON SCHEMA excel_destination_db.excel_destination_schema TO ROLE <excel_connector_role>;
Créez un entrepôt qui sera utilisé par le connecteur ou utilisez un entrepôt existant. Commencez par la taille d’entrepôt la plus petite, puis faites des essais en fonction du nombre de tables répliquées et de la quantité de données transférées. Les tables de grande taille s’adaptent généralement mieux aux entrepôts multi-clusters, plutôt qu’aux entrepôts de grande taille.
Assurez-vous que l’utilisateur dont le rôle est utilisé par le connecteur dispose des privilèges requis pour utiliser l’entrepôt. Si ce n’est pas le cas, accordez les privilèges requis au rôle :
CREATE WAREHOUSE excel_connector_warehouse WITH WAREHOUSE_SIZE = 'X-Small'; GRANT USAGE ON WAREHOUSE excel_connector_warehouse TO ROLE <excel_connector_role>;
Définir le connecteur¶
En tant qu’ingénieur des données, effectuez les tâches suivantes pour installer et configurer un connecteur :
Installer le connecteur¶
Naviguez jusqu’à la page d’aperçu d’Openflow. Dans la section Featured connectors, sélectionnez View more connectors.
Sur la page des connecteurs Openflow, trouvez le connecteur et sélectionnez Add to runtime.
Dans la boîte de dialogue Select runtime, sélectionnez votre environnement d’exécution dans la liste déroulante Available runtimes.
Sélectionnez Add.
Note
Avant d’installer le connecteur, assurez-vous que vous avez créé une base de données et un schéma dans Snowflake pour que le connecteur puisse stocker les données ingérées.
Authentifiez-vous au déploiement avec les identifiants de votre compte Snowflake et sélectionnez Allow lorsque vous êtes invité à autoriser l’application d’exécution à accéder à votre compte Snowflake. Le processus d’installation du connecteur prend quelques minutes.
Authentifiez-vous auprès de l’environnement d’exécution avec les identifiants de votre compte Snowflake.
Le canevas Openflow apparaît avec le groupe de processus du connecteur ajouté.
Configuration du connecteur¶
Configurez le connecteur pour qu’il récupère tous les secrets requis par le connecteur, par exemple, la clé privée pour l’authentification par paire de clés et les certificats, à partir du gestionnaire de secrets pris en charge.
Cliquez avec le bouton droit de la souris sur le groupe de processus importé et sélectionnez Parameters.
Renseignez les valeurs des paramètres requis comme décrit dans Paramètres de débit.
Paramètres de débit¶
Cette section décrit les paramètres de flux que vous pouvez configurer en fonction de la source de données et des contextes de paramètres :
Paramètres de débit : Pour Amazon S3¶
Microsoft Excel (S3 vers Snowflake) Paramètres d’ingestion¶
Paramètre |
Description |
Obligatoire |
---|---|---|
Préfixe de la table de destination |
Le préfixe de la table dans le schéma de destination où les données récupérées du fichier Excel seront persistées. La table sera créée automatiquement par le connecteur. |
Non |
Mot de passe du fichier |
Mot de passe qui protège le fichier Excel. Applicable uniquement si le type de protection est |
Non |
Type de protection |
Type de protection sur le fichier Excel. La valeur peut être soit |
Oui |
Plages |
La notation A1 des plages séparées par des virgules à partir desquelles récupérer les valeurs. Par exemple : Feuille1!A1:B2,Feuille2!D4:E5,Feuille3. La première ligne de la plage sélectionnée doit représenter les noms des colonnes. Si vous ne le précisez pas, l’ensemble du classeur sera ingéré. Les plages spécifiées sont appliquées à tous les fichiers spécifiés dans |
Non |
Compartiment S3 |
Le compartiment S3 à partir duquel le fichier Excel doit être récupéré. |
Oui |
Clés des objets S3 |
Liste des clés d’objet séparées par des virgules dans le compartiment S3 qui contiennent des fichiers Excel à récupérer. Exemple : |
Oui |
Planification |
Planification de l’ingestion du connecteur. |
Oui |
Paramètres de la source Microsoft Excel (S3 à Snowflake)¶
Paramètre |
Description |
Obligatoire |
---|---|---|
ID de clé d’accès AWS |
ID de clé d’accès pour l’utilisateur AWS qui est utilisée pour récupérer le fichier Excel. |
Oui |
Clé d’accès secrète AWS |
Clé d’accès secrète pour l’utilisateur AWS qui est utilisée pour récupérer le fichier Excel. |
Oui |
Région AWS |
La région AWS où se trouve le compartiment S3. |
Oui |
Paramètres de destination Microsoft Excel (S3 à Snowflake)¶
Paramètre |
Description |
Obligatoire |
---|---|---|
Base de données de destination |
Nom (sensible à la casse) de la base de données Snowflake où les données seront ingérées. |
Oui |
Schéma de destination |
Nom (sensible à la casse) du schéma Snowflake dans lequel les tables seront créées. |
Oui |
Identificateur de compte Snowflake |
Nom du compte Snowflake formaté comme suit : [nom de l’organisation]-[nom du compte] où les données récupérées du fichier Excel seront conservées. |
Oui |
Clé privée de Snowflake |
La clé privée, formatée selon les normes PKCS8 et contenant les en-têtes et pieds de page standard PEM, utilisée dans l’authentification de la paire de clés. |
Oui |
Mot de passe de la clé privée de Snowflake |
Le mot de passe de la clé privée de Snowflake. Doit être laissé sans valeur si la clé n’est pas protégée par un mot de passe. |
Non |
Rôle Snowflake |
Le rôle Snowflake qui sera utilisé par le connecteur. |
Oui |
Utilisateur Snowflake |
Nom d’utilisateur pour un compte Snowflake. |
Oui |
Entrepôt Snowflake |
L’entrepôt Snowflake est utilisé pour exécuter des requêtes lors de l’insertion de données dans la table de destination. |
Oui |
Exécutez le flux¶
Cliquez avec le bouton droit de la souris sur l’avion et sélectionnez Enable all Controller Services.
Cliquez avec le bouton droit de la souris sur le groupe de processus importé et sélectionnez Start. Le connecteur démarre l’ingestion des données.
Noms de tables générés¶
Le connecteur crée des tables de destination nommées à l’aide du modèle suivant : {PREFIX}{FILENAME}_{RANGE}
. Les noms sont toujours des identificateurs entre guillemets doubles.
{PREFIX}
est remplacé par la valeur du paramètreDestination Table Prefix
, par exempleprfx_
.{FILENAME}
est remplacé par le chemin complet du fichier ingéré, par exemplefile1.xlsx
oufolder/file2.xlsx
.{RANGE}
est remplacé par :Nom de la feuille ingérée si la valeur du paramètre
Ranges
est vide.Nom de la feuille ingérée avec la plage ingérée telle que spécifiée dans le paramètre
Ranges
, par exempleSheet1!A1:B2
.
Exemple de noms de tables générés :
"file1.xlsx_Sheet1"
"prfx_folder/file2.xlsx_Sheet1!A1:B2"
(Facultatif) Reconfigurez le connecteur en cours d’exécution¶
Vous pouvez reconfigurer les paramètres du connecteur une fois que celui-ci a commencé à ingérer des données. Si vous devez modifier les fichiers ou les plages ingérés, effectuez les étapes suivantes pour vous assurer que les données sont envoyées correctement à Snowflake :
Arrêtez le connecteur : assurez-vous que tous les processeurs Openflow sont arrêtés.
Accédez aux paramètres de configuration : accédez aux paramètres de configuration du connecteur dans Openflow.
Modifier les paramètres : ajustez les paramètres en fonction des exigences.
Démarrez le connecteur : démarrez le connecteur et assurez-vous également que tous les services du contrôleur ont démarré.