Paramétrez Openflow Connector for Excel

Note

Le connecteur est soumis aux conditions d’utilisation du connecteur.

Cette rubrique décrit les étapes pour paramétrer Openflow Connector for Excel.

Conditions préalables

  1. Assurez-vous d’avoir consulté À propos de Openflow Connector for Excel.

  2. Assurez-vous que vous avez paramétré Openflow.

Obtenir les identifiants de connexion

Cette section décrit les étapes à suivre pour obtenir vos identifiants de connexion afin de configurer le connecteur. En fonction de votre source de données,

Obtenir les identifiants de connexion AWS

En tant qu’administrateur AWS, effectuez les tâches suivantes :

  1. Connectez-vous à votre console AWS IAM.

  2. Sélectionnez le numéro sous Users, puis Create user.

  3. Spécifiez le nom de l’utilisateur, le groupe et les autorisations supplémentaires si nécessaire. L’utilisateur doit avoir au moins s3:GetObject l’accès aux objets lus par le connecteur depuis le compartiment S3.

  4. Une fois l’utilisateur créé, dans la vue de l’utilisateur, naviguez jusqu’à Security Credentials » Access Keys.

  5. Sélectionnez Create access key. La nouvelle clé d’accès ne doit permettre l’accès qu’à des ressources spécifiques. Pour une meilleure sécurité et un meilleur contrôle d’accès, Snowflake recommande de n’autoriser l’accès qu’à des compartiments S3 spécifiques.

  6. Prenez note de Access Key et Secret Access Key.

Obtenir les identifiants de connexion SharePoint

Le connecteur utilise les APIs Microsoft Graph suivant pour récupérer les données à partir de SharePoint :

En tant qu’administrateur SharePoint, effectuez les actions suivantes :

  1. Connectez-vous à votre centre d’administration Microsoft Entra.

  2. Accédez à Applications » App registrations.

  3. Assurez-vous que l’application dispose des autorisations suivantes : MS Graph Application. Pour plus d’informations, voir Obtenir un accès sans utilisateur.

    • Pour l’accès au site SharePoint, l’une des autorisations suivantes doit être accordée :

      • Sites.Read.All - autorise l’accès en lecture pour tous les sites.

      • Sites.Selected - limite l’accès aux seuls sites spécifiés.

    • Pour l’accès au fichier SharePoint (pour les téléchargements de fichiers), l’une des autorisations suivantes doit être accordée :

      • Files.Read.All - permet l’accès en lecture à tous les fichiers.

      • Files.SelectedOperations.Selected - limite l’accès aux seuls fichiers des sites spécifiés.

    Note

    Snowflake recommande d’utiliser les autorisations sélectionnées https://learn.microsoft.com/en-us/graph/permissions-selected-overview?tabs=http pour une meilleure sécurité et un meilleur contrôle d’accès.

  4. Obtenez les identifiants de connexion suivants. Vous devrez peut-être contacter votre administrateur de compte Azure ou Office 365 pour obtenir ces informations :

    • L’URL de votre site Microsoft 365 SharePoint avec les fichiers ou dossiers que vous souhaitez ingérer dans Snowflake.

    • Votre ID de locataire. Pour en savoir plus sur l’ID de locataire et sur la façon de le trouver dans Microsoft Entra, consultez Trouvez votre ID de locataire Microsoft 365.

    • ID Client et secret du client pour votre application Microsoft Entra.

      • Pour en savoir plus sur l’ID client et sur la manière de le trouver dans Microsoft Entra, voir ID d’application (ID client).

      • Pour en savoir plus sur le secret d’un client et sur la manière de le trouver dans Microsoft Entra, voir Certificats & secrets.

Paramétrage du compte Snowflake

En tant qu’administrateur de compte Snowflake, effectuez les tâches suivantes :

  1. Créez un nouveau rôle ou utilisez un rôle existant.

  2. Créez un nouvel utilisateur du service Snowflake avec le type SERVICE.

  3. Autorisez l’utilisateur du service Snowflake le rôle que vous avez créé dans les étapes précédentes.

  4. Configurez avec l’authentification par paire de clés pour l’utilisateur de Snowflake SERVICE de l’étape 2.

  5. Fortement recommandé Configurez un gestionnaire de secrets pris en charge par Openflow, par exemple, AWS, Azure et Hashicorp, et stockez les clés publiques et privées dans le magasin de secrets.

    Note

    Si vous ne souhaitez pas utiliser un gestionnaire de secrets, il vous incombe de protéger les fichiers de clés publiques et de clés privées utilisés pour l’authentification par paires de clés conformément aux politiques de sécurité de votre organisation.

    1. Une fois le gestionnaire de secrets configuré, déterminez comment vous vous y authentifierez. Sur AWS, il est recommandé d’utiliser le rôle de l’instance EC2 associée à Openflow afin qu’aucun autre secret ne doive être conservé.

    2. Dans Openflow, configurez un Parameter Provider associé à ce Secrets Manager, à partir du menu hamburger en haut à droite. Naviguez vers Controller Settings » Parameter Provider et récupérez les valeurs de vos paramètres.

    3. À ce stade, tous les identifiants peuvent être référencés avec les chemins de paramètres associés et aucune valeur sensible ne doit être conservée dans Openflow.

  6. Si d’autres utilisateurs de Snowflake ont besoin d’accéder aux documents bruts ingérés et aux tables ingérées par le connecteur (par exemple, pour un traitement personnalisé dans Snowflake), accordez à ces utilisateurs le rôle créé à l’étape 1.

  7. Créez une base de données et un schéma dans Snowflake pour que le connecteur puisse stocker les données ingérées. Accordez les Privilèges de base de données requis au rôle créé lors de la première étape. Remplacez l’espace réservé au rôle par la valeur réelle et utilisez les commandes SQL suivantes :

    CREATE DATABASE excel_destination_db;
    CREATE SCHEMA excel_destination_db.excel_destination_schema;
    GRANT USAGE ON DATABASE excel_destination_db TO ROLE <excel_connector_role>;
    GRANT USAGE ON SCHEMA excel_destination_db.excel_destination_schema TO ROLE <excel_connector_role>;
    GRANT CREATE TABLE ON SCHEMA excel_destination_db.excel_destination_schema TO ROLE <excel_connector_role>;
    
    Copy
  8. Créez un entrepôt qui sera utilisé par le connecteur ou utilisez un entrepôt existant. Commencez par la taille d’entrepôt la plus petite, puis faites des essais en fonction du nombre de tables répliquées et de la quantité de données transférées. Les tables de grande taille s’adaptent généralement mieux aux entrepôts multi-clusters, plutôt qu’aux entrepôts de grande taille.

  9. Assurez-vous que l’utilisateur dont le rôle est utilisé par le connecteur dispose des privilèges requis pour utiliser l’entrepôt. Si ce n’est pas le cas, accordez les privilèges requis au rôle :

    CREATE WAREHOUSE excel_connector_warehouse WITH WAREHOUSE_SIZE = 'X-Small';
    GRANT USAGE ON WAREHOUSE excel_connector_warehouse TO ROLE <excel_connector_role>;
    
    Copy

Définir le connecteur

En tant qu’ingénieur des données, effectuez les tâches suivantes pour installer et configurer un connecteur :

Installer le connecteur

  1. Naviguez jusqu’à la page d’aperçu d’Openflow. Dans la section Featured connectors, sélectionnez View more connectors.

  2. Sur la page des connecteurs Openflow, trouvez le connecteur et sélectionnez Add to runtime.

  3. Dans la boîte de dialogue Select runtime, sélectionnez votre environnement d’exécution dans la liste déroulante Available runtimes.

  4. Sélectionnez Add.

    Note

    Avant d’installer le connecteur, assurez-vous que vous avez créé une base de données et un schéma dans Snowflake pour que le connecteur puisse stocker les données ingérées.

  5. Authentifiez-vous au déploiement avec les identifiants de votre compte Snowflake et sélectionnez Allow lorsque vous êtes invité à autoriser l’application d’exécution à accéder à votre compte Snowflake. Le processus d’installation du connecteur prend quelques minutes.

  6. Authentifiez-vous auprès de l’environnement d’exécution avec les identifiants de votre compte Snowflake.

Le canevas Openflow apparaît avec le groupe de processus du connecteur ajouté.

Configuration du connecteur

  1. Configurez le connecteur pour qu’il récupère tous les secrets requis par le connecteur, par exemple, la clé privée pour l’authentification par paire de clés et les certificats, à partir du gestionnaire de secrets pris en charge.

  2. Cliquez avec le bouton droit de la souris sur le groupe de processus importé et sélectionnez Parameters.

  3. Renseignez les valeurs des paramètres requis comme décrit dans Paramètres de débit.

Paramètres de débit

Cette section décrit les paramètres de flux que vous pouvez configurer en fonction de la source de données et des contextes de paramètres :

Paramètres de débit : Pour Amazon S3

Microsoft Excel (S3 vers Snowflake) Paramètres d’ingestion

Paramètre

Description

Obligatoire

Préfixe de la table de destination

Le préfixe de la table dans le schéma de destination où les données récupérées du fichier Excel seront persistées. La table sera créée automatiquement par le connecteur.

Non

Mot de passe du fichier

Mot de passe qui protège le fichier Excel. Applicable uniquement si le type de protection est PASSWORD.

Non

Type de protection

Type de protection sur le fichier Excel. La valeur peut être soit UNPROTECTED si le fichier n’est pas protégé, soit PASSWORD si le fichier est protégé par un mot de passe.

Oui

Plages

La notation A1 des plages séparées par des virgules à partir desquelles récupérer les valeurs. Par exemple : Feuille1!A1:B2,Feuille2!D4:E5,Feuille3. La première ligne de la plage sélectionnée doit représenter les noms des colonnes. Si vous ne le précisez pas, l’ensemble du classeur sera ingéré. Les plages spécifiées sont appliquées à tous les fichiers spécifiés dans S3 Object Keys.

Non

Compartiment S3

Le compartiment S3 à partir duquel le fichier Excel doit être récupéré.

Oui

Clés des objets S3

Liste des clés d’objet séparées par des virgules dans le compartiment S3 qui contiennent des fichiers Excel à récupérer. Exemple : file1.xlsx,file2.xlsx.

Oui

Planification

Planification de l’ingestion du connecteur.

Oui

Paramètres de la source Microsoft Excel (S3 à Snowflake)

Paramètre

Description

Obligatoire

ID de clé d’accès AWS

ID de clé d’accès pour l’utilisateur AWS qui est utilisée pour récupérer le fichier Excel.

Oui

Clé d’accès secrète AWS

Clé d’accès secrète pour l’utilisateur AWS qui est utilisée pour récupérer le fichier Excel.

Oui

Région AWS

La région AWS où se trouve le compartiment S3.

Oui

Paramètres de destination Microsoft Excel (S3 à Snowflake)

Paramètre

Description

Obligatoire

Base de données de destination

Nom (sensible à la casse) de la base de données Snowflake où les données seront ingérées.

Oui

Schéma de destination

Nom (sensible à la casse) du schéma Snowflake dans lequel les tables seront créées.

Oui

Identificateur de compte Snowflake

Nom du compte Snowflake formaté comme suit : [nom de l’organisation]-[nom du compte] où les données récupérées du fichier Excel seront conservées.

Oui

Clé privée de Snowflake

La clé privée, formatée selon les normes PKCS8 et contenant les en-têtes et pieds de page standard PEM, utilisée dans l’authentification de la paire de clés.

Oui

Mot de passe de la clé privée de Snowflake

Le mot de passe de la clé privée de Snowflake. Doit être laissé sans valeur si la clé n’est pas protégée par un mot de passe.

Non

Rôle Snowflake

Le rôle Snowflake qui sera utilisé par le connecteur.

Oui

Utilisateur Snowflake

Nom d’utilisateur pour un compte Snowflake.

Oui

Entrepôt Snowflake

L’entrepôt Snowflake est utilisé pour exécuter des requêtes lors de l’insertion de données dans la table de destination.

Oui

Paramètres de débit : Pour SharePoint

Paramètres d’ingestion Microsoft Excel (SharePoint to Snowflake)

Paramètre

Description

Obligatoire

Préfixe de la table de destination

Le préfixe de la table dans le schéma de destination où les données récupérées du fichier Excel seront persistées. La table sera créée automatiquement par le connecteur.

Non

Mot de passe du fichier

Mot de passe qui protège le fichier Excel. Applicable uniquement si le type de protection est PASSWORD.

Non

Type de protection

Type de protection sur le fichier Excel. La valeur peut être soit UNPROTECTED si le fichier n’est pas protégé, soit PASSWORD si le fichier est protégé par un mot de passe.

Oui

Plages

La notation A1 des plages séparées par des virgules à partir desquelles récupérer les valeurs. Par exemple : Feuille1!A1:B2,Feuille2!D4:E5,Feuille3. La première ligne de la plage sélectionnée doit représenter les noms des colonnes. Si vous ne le précisez pas, l’ensemble du classeur sera ingéré. Les plages spécifiées sont appliquées à tous les fichiers spécifiés dans SharePoint Files.

Non

Planification

Planification de l’ingestion du connecteur.

Oui

Nom de la bibliothèque de documents SharePoint

Une bibliothèque du site SharePoint où résident les fichiers ingérés.

Oui

Fichiers SharePoint

Liste des chemins d’accès séparés par des virgules (par rapport à la racine de la bibliothèque de documents) des fichiers Excel qui seront ingérés. Exemple : file1.xlsx,folder/file2.xlsx.

Oui

Paramètres de la source Microsoft Excel (SharePoint vers Snowflake)

Paramètre

Description

Obligatoire

ID client SharePoint

ID client Microsoft Entra. Pour en savoir plus sur l’ID client et sur la manière de le trouver dans Microsoft Entra, voir ID d’application (ID client).

Oui

Secret du client SharePoint

Secret du client Microsoft Entra. Pour en savoir plus sur le secret d’un client et sur la manière de le trouver dans Microsoft Entra, voir Certificats & secrets.

Oui

URL de site SharePoint

URL du site SharePoint à partir duquel les fichiers ingérés seront téléchargés.

Oui

ID locataire SharePoint

ID locataire Microsoft Entra. Pour en savoir plus sur l’ID de locataire et sur la façon de le trouver dans Microsoft Entra, consultez Trouvez votre ID de locataire Microsoft 365.

Oui

Paramètres de destination Microsoft Excel (SharePoint to Snowflake)

Paramètre

Description

Obligatoire

Base de données de destination

Nom (sensible à la casse) de la base de données Snowflake où les données seront ingérées.

Oui

Schéma de destination

Nom (sensible à la casse) du schéma Snowflake dans lequel les tables seront créées.

Oui

Identificateur de compte Snowflake

Nom du compte Snowflake formaté comme suit : [nom de l’organisation]-[nom du compte] où les données récupérées du fichier Excel seront conservées.

Oui

Clé privée de Snowflake

La clé privée, formatée selon les normes PKCS8 et contenant les en-têtes et pieds de page standard PEM, utilisée dans l’authentification de la paire de clés.

Oui

Mot de passe de la clé privée de Snowflake

Le mot de passe de la clé privée de Snowflake. Doit être laissé sans valeur si la clé n’est pas protégée par un mot de passe.

Non

Rôle Snowflake

Le rôle Snowflake qui sera utilisé par le connecteur.

Oui

Utilisateur Snowflake

Nom d’utilisateur pour un compte Snowflake.

Oui

Entrepôt Snowflake

L’entrepôt Snowflake est utilisé pour exécuter des requêtes lors de l’insertion de données dans la table de destination.

Oui

Exécutez le flux

  1. Cliquez avec le bouton droit de la souris sur l’avion et sélectionnez Enable all Controller Services.

  2. Cliquez avec le bouton droit de la souris sur le groupe de processus importé et sélectionnez Start. Le connecteur démarre l’ingestion des données.

Noms de tables générés

Le connecteur crée des tables de destination nommées à l’aide du modèle suivant : {PREFIX}{FILENAME}_{RANGE}. Les noms sont toujours des identificateurs entre guillemets doubles.

  • {PREFIX} est remplacé par la valeur du paramètre Destination Table Prefix, par exemple prfx_.

  • {FILENAME} est remplacé par le chemin complet du fichier ingéré, par exemple file1.xlsx ou folder/file2.xlsx.

  • {RANGE} est remplacé par :

    • Nom de la feuille ingérée si la valeur du paramètre Ranges est vide.

    • Nom de la feuille ingérée avec la plage ingérée telle que spécifiée dans le paramètre Ranges, par exemple Sheet1!A1:B2.

Exemple de noms de tables générés :

  • "file1.xlsx_Sheet1"

  • "prfx_folder/file2.xlsx_Sheet1!A1:B2"

(Facultatif) Reconfigurez le connecteur en cours d’exécution

Vous pouvez reconfigurer les paramètres du connecteur une fois que celui-ci a commencé à ingérer des données. Si vous devez modifier les fichiers ou les plages ingérés, effectuez les étapes suivantes pour vous assurer que les données sont envoyées correctement à Snowflake :

  1. Arrêtez le connecteur : assurez-vous que tous les processeurs Openflow sont arrêtés.

  2. Accédez aux paramètres de configuration : accédez aux paramètres de configuration du connecteur dans Openflow.

  3. Modifier les paramètres : ajustez les paramètres en fonction des exigences.

  4. Démarrez le connecteur : démarrez le connecteur et assurez-vous également que tous les services du contrôleur ont démarré.