Paramétrage du connecteur Openflow pour SharePoint¶

Note

This connector is subject to the Snowflake Connector Terms.

Cette rubrique décrit les étapes de paramétrage du connecteur Openflow pour SharePoint.

Conditions préalables¶

Assurez-vous d’avoir consulté À propos de Openflow Connector for SharePoint.
Ensure that you have Configuration d’Openflow - BYOC or Set up Openflow - Snowflake Deployments.
Si vous utilisez Openflow - Snowflake Deployments, assurez-vous d’avoir examiné la configuration des domaines requis et d’avoir accordé l’accès aux domaines requis pour le connecteur SharePoint.

Obtenir les identifiants de connexion¶

En tant qu’administrateur de SharePoint, effectuez les actions suivantes :

Ensure that you have a Microsoft Graph application with the appropriate Microsoft Graph permissions based on your use case:

Pour les connecteurs ACL :
1. Sites.Selected: limite l’accès aux seuls sites spécifiés.
2. Files.SelectedOperations.Selected: limite l’accès aux seuls fichiers des sites spécifiés.
3. GroupMember.Read.All: utilisé pour résoudre les autorisations du groupe SharePoint.
4. User.ReadBasic.All: utilisé pour la résolution des courriels des utilisateurs de Microsoft365.
Pour les connecteurs non-ACL :
1. Sites.Selected: limite l’accès aux seuls sites spécifiés.
2. Files.SelectedOperations.Selected: limite l’accès aux seuls fichiers des sites spécifiés.
Note

Les connecteurs non-ACL ne récupèrent pas les autorisations de l’utilisateur ou les informations de groupe. Ils n’ont donc pas besoin des autorisations GroupMember.Read.All et User.ReadBasic.All.
Configurez SharePoint pour activer l’authentification OAuth comme décrit dans Obtenir un accès sans utilisateur. Le connecteur utilise les APIs Microsoft Graph suivant pour récupérer les données à partir de SharePoint :
Obtenez l’URL de votre site Microsoft 365 SharePoint avec les fichiers ou dossiers que vous souhaitez ingérer dans Snowflake et les identifiants de votre administrateur de compte Azure ou Office 365.

Paramétrage du compte Snowflake¶

En tant qu’administrateur de compte Snowflake, effectuez les tâches suivantes manuellement ou à l’aide du script inclus ci-dessous :

Créez un nouveau rôle ou utilisez un rôle existant et accordez le Privilèges de base de données.
Créez un nouvel utilisateur du service Snowflake avec le type SERVICE.
Autorisez l’utilisateur du service Snowflake le rôle que vous avez créé dans les étapes précédentes.
Configurez avec l’authentification par paire de clés pour l’utilisateur de Snowflake SERVICE de l’étape 2.
Snowflake recommande vivement cette étape. Configurez un gestionnaire de secrets pris en charge par Openflow, par exemple AWS, Azure et Hashicorp, et stockez les clés publiques et privées dans le magasin de secrets.

Note

Si, pour une raison quelconque, vous ne souhaitez pas utiliser un gestionnaire de secrets, il vous incombe de protéger les fichiers de clés publiques et privées utilisés pour l’authentification par paires de clés conformément aux politiques de sécurité de votre organisation.
1. Une fois le gestionnaire de secrets configuré, déterminez comment vous vous y authentifierez. Sur AWS, il est recommandé d’utiliser le rôle de l’instance EC2 associée à Openflow, car de cette manière, aucun autre secret ne doit être conservé.
2. Dans Openflow, configurez un fournisseur de paramètres associé à ce gestionnaire de secrets, à partir du menu hamburger en haut à droite. Naviguez jusqu’à Controller Settings » Parameter Provider, puis récupérez vos valeurs de paramètres.
3. À ce stade, tous les identifiants peuvent être référencés avec les chemins de paramètres associés et aucune valeur sensible ne doit être conservée dans Openflow.
Si d’autres utilisateurs de Snowflake ont besoin d’accéder aux documents bruts ingérés et aux tables ingérées par le connecteur (par exemple, pour un traitement personnalisé dans Snowflake), accordez à ces utilisateurs le rôle créé à l’étape 1.
Désignez un entrepôt à utiliser par le connecteur. Commencez par la taille d’entrepôt la plus petite, puis faites des essais en fonction du nombre de tables répliquées et de la quantité de données transférées. Les tables de grande taille s’adaptent généralement mieux aux entrepôts multi-clusters, plutôt qu’aux entrepôts de grande taille.

Exemple de configuration¶

--The following script assumes you'll need to create all required roles, users, and objects.
--However, you may want to reuse some that are already in existence.

--Create a Snowflake service user to manage the connector
USE ROLE USERADMIN;
CREATE USER <openflow_service_user> TYPE=SERVICE COMMENT='Service user for Openflow automation';

--Create a pair of secure keys (public and private). For more information, see
--key-pair authentication. Store the private key for the user in a file to supply
--to the connector’s configuration. Assign the public key to the Snowflake service user:
ALTER USER <openflow_service_user> SET RSA_PUBLIC_KEY = '<pubkey>';


--Create a role to manage the connector and the associated data and
--grant it to that user
USE ROLE SECURITYADMIN;
CREATE ROLE <openflow_connector_admin_role>;
GRANT ROLE <openflow_connector_admin_role> TO USER <openflow_service_user>;


--The following block is for USE CASE 2 (Cortex connect) ONLY
--Create a role for read access to the cortex search service created by this connector.
--This role should be granted to any role that will use the service
CREATE ROLE <cortex_search_service_read_only_role>;
GRANT ROLE <cortex_search_service_read_only_role> TO ROLE <whatever_roles_will_access_search_service>;

--Create the database the data will be stored in and grant usage to the roles created
USE ROLE ACCOUNTADMIN; --use whatever role you want to own your DB
CREATE DATABASE IF NOT EXISTS <destination_database>;
GRANT USAGE ON DATABASE <destination_database> TO ROLE <openflow_connector_admin_role>;

--Create the schema the data will be stored in and grant the necessary privileges
--on that schema to the connector admin role:
USE DATABASE <destination_database>;
CREATE SCHEMA IF NOT EXISTS <destination_schema>;
GRANT USAGE ON SCHEMA <destination_schema> TO ROLE <openflow_connector_admin_role>;
GRANT CREATE TABLE, CREATE DYNAMIC TABLE, CREATE STAGE, CREATE SEQUENCE, CREATE CORTEX
SEARCH SERVICE ON SCHEMA <destination_schema> TO ROLE <openflow_connector_admin_role>;

--The following block is for CASE 2 (Cortex connect) ONLY
--Grant the Cortex read-only role access to the database and schema
GRANT USAGE ON DATABASE <destination_database> TO ROLE <cortex_search_service_read_only_role>;
GRANT USAGE ON SCHEMA <destination_schema> TO ROLE <cortex_search_service_read_only_role>;

--Create the warehouse this connector will use if it doesn't already exist. Grant the
--appropriate privileges to the connector admin role. Adjust the size according to your needs.
CREATE WAREHOUSE <openflow_warehouse>
WITH
   WAREHOUSE_SIZE = 'MEDIUM'
   AUTO_SUSPEND = 300
   AUTO_RESUME = TRUE;
GRANT USAGE, OPERATE ON WAREHOUSE <openflow_warehouse> TO ROLE <openflow_connector_admin_role>;

Copy

Use case 1: Ingest files only¶

Use a connector to:

Ingérer et mettre à jour en continu des fichiers Sharepoint pour un traitement personnalisé au sein de Snowflake
En option, ingérer des autorisations de fichiers (connecteurs ACL) pour maintenir les contrôles d’accès en aval

Définir le connecteur¶

En tant qu’ingénieur des données, effectuez les tâches suivantes pour configurer le connecteur :

Installer le connecteur¶

Naviguez jusqu’à la page d’aperçu d’Openflow. Dans la section Featured connectors, sélectionnez View more connectors.
Sur la page des connecteurs Openflow, trouvez le connecteur et sélectionnez Add to runtime.
Dans la boîte de dialogue Select runtime, sélectionnez votre environnement d’exécution dans la liste déroulante Available runtimes.
Sélectionnez Add.

Note

Avant d’installer le connecteur, assurez-vous que vous avez créé une base de données et un schéma dans Snowflake pour que le connecteur puisse stocker les données ingérées.
Authentifiez-vous au déploiement avec les identifiants de votre compte Snowflake et sélectionnez Allow lorsque vous êtes invité à autoriser l’application d’exécution à accéder à votre compte Snowflake. Le processus d’installation du connecteur prend quelques minutes.
Authentifiez-vous auprès de l’environnement d’exécution avec les identifiants de votre compte Snowflake.

Le canevas Openflow apparaît avec le groupe de processus du connecteur ajouté.

Configuration du connecteur¶

Renseigner les paramètres du groupe de processus
1. Cliquez avec le bouton droit de la souris sur le groupe de processus importé et sélectionnez Paramètres.
2. Saisissez les valeurs des paramètres requis comme décrit dans Paramètres d’ingestion Sharepoint, Paramètres de destination Sharepoint et Paramètres source Sharepoint.

Paramètres de la source Sharepoint¶

Pour tous les connecteurs :

Paramètre	Description
URL de site SharePoint	URL ou site SharePoint à partir duquel le connecteur va ingérer du contenu
ID client SharePoint	ID client Microsoft Entra. Pour en savoir plus sur l’ID client et sur la manière de le trouver dans Microsoft Entra, voir ID d’application (ID client).
Secret du client SharePoint	Secret du client Microsoft Entra. Pour en savoir plus sur le secret d’un client et sur la manière de le trouver dans Microsoft Entra, voir Certificats & secrets.
ID locataire SharePoint	ID locataire Microsoft Entra. Pour en savoir plus sur l’ID de locataire et sur la façon de le trouver dans Microsoft Entra, consultez Trouvez votre ID de locataire Microsoft 365.

Pour les connecteurs ACL uniquement :

Paramètre	Description
Clé privée de l’application Sharepoint	Une clé privée de l’application générée au format PEM. La clé doit être non chiffrée.
Domaine du site Sharepoint	Nom de domaine du site Sharepoint synchronisé.
Certificat d’application Sharepoint	Un certificat d’application généré au format PEM.

Paramètres de la destination Sharepoint¶

Paramètre	Description	Obligatoire
Base de données de destination	La base de données dans laquelle les données seront conservées. Elle doit déjà exister dans Snowflake. Le nom est sensible à la casse. Pour les identificateurs sans guillemets, indiquez le nom en majuscules.	Oui
Schéma de destination	Le schéma dans lequel les données seront conservées, qui doit déjà exister dans Snowflake. Le nom est sensible à la casse. Pour les identificateurs sans guillemets, indiquez le nom en majuscules. Voir l’exemple suivant : `CREATE SCHEMA SCHEMA_NAME` ou `CREATE SCHEMA schema_name` : utilisez `SCHEMA_NAME`. `CREATE SCHEMA "schema_name"` ou `CREATE SCHEMA "SCHEMA_NAME"` : utilisez `schema_name` ou `SCHEMA_NAME`, respectivement.	Oui
Identificateur de compte Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : doit être vide. KEY_PAIR : nom du compte Snowflake au format [nom-organisation]-[nom-compte] où les données seront conservées.	Oui
Stratégie d’authentification Snowflake	Lorsque vous utilisez : Déploiement Snowflake Openflow ou BYOC : Utilisez SNOWFLAKE_SESSION_TOKEN. Ce jeton est géré automatiquement par Snowflake. Les déploiements BYOC doivent disposer de rôles d’exécution configurés au préalable pour utiliser le SNOWFLAKE_SESSION_TOKEN. BYOC: Alternatively BYOC can use KEY_PAIR as the value for authentication strategy.	Oui
Clé privée de Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : doit être vide. KEY_PAIR : Doit correspondre à la clé privée RSA utilisée pour l’authentification. The RSA key must be formatted according to PKCS8 standards and have standard PEM headers and footers. Note that either a Snowflake Private Key File or a Snowflake Private Key must be defined.	Non
Fichier de clé privée de Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : Le fichier de la clé privée doit être vide. KEY_PAIR : Chargez le fichier qui contient la clé privée RSA utilisée pour l’authentification auprès de Snowflake, formatée conformément aux normes PKCS8 et possédant des en-têtes et des pieds de page PEM standards. La ligne d’en-tête commence par `-----BEGIN PRIVATE`. Pour charger le fichier de la clé privée, cochez la case Reference asset.	Non
Mot de passe de la clé privée de Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : doit être vide. KEY_PAIR : fournissez le mot de passe associé au fichier de la clé privée Snowflake.	Non
Rôle Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : Utilisez votre rôle d’exécution. Vous pouvez trouver votre rôle d’exécution dans l’UI d’Openflow, en naviguant jusqu’à View Details pour votre exécution. Stratégie d’authentification KEY_PAIR : Utilisez un rôle valide configuré pour votre utilisateur de service.	Oui
Nom d’utilisateur Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : doit être vide. KEY_PAIR : indiquez le nom d’utilisateur utilisé pour vous connecter à l’instance Snowflake.	Oui
Entrepôt Snowflake	Entrepôt Snowflake utilisé pour exécuter des requêtes.	Oui

Paramètres d’ingestion de Sharepoint¶

Pour tous les connecteurs :

Paramètre	Description
Dossier source SharePoint	Les fichiers pris en charge de ce dossier et de tous ses sous-dossiers sont ingérés dans Snowflake. Le chemin du dossier est relatif à une bibliothèque de documents partagés.
Extensions de fichiers à ingérer	Une liste séparée par des virgules qui spécifie les extensions de fichiers à ingérer. Le connecteur essaie d’abord de convertir les fichiers au format PDF, si possible. Néanmoins, la vérification de l’extension est effectuée sur l’extension du fichier d’origine. Pour en savoir plus sur les formats qui peuvent être convertis, consultez Options de format Si certaines des extensions de fichier spécifiées ne sont pas prises en charge par Cortex Parse Document, le connecteur ignore ces fichiers, connecte un message d’avertissement dans un journal d’événements et poursuit le traitement des autres fichiers.
Nom de la bibliothèque de documents Sharepoint	Une bibliothèque du site SharePoint à partir de laquelle les fichiers sont ingérés.
Nom de la table de hachage du fichier Snowflake	Nom de la table dans laquelle sont stockés les hachages de fichiers afin de déterminer si le contenu a été modifié. Ce paramètre ne doit généralement pas être modifié.

Pour les connecteurs ACL uniquement :

Paramètre	Description
Groupes de sites Sharepoint activés	Indique si la fonctionnalité Groupes de sites est activée.

Exécutez le flux.
1. Démarrez le groupe de processus. Le flux créera tous les objets requis à l’intérieur de Snowflake.
2. Cliquez avec le bouton droit de la souris sur le groupe de processus importé et sélectionnez Start.

Use case 2: Ingest files and perform processing with Cortex¶

Utilisez la définition de flux prédéfinie pour :

Create AI assistants for documents within your organization’s SharePoint site
Enable your AI assistants to adhere to access controls specified in your organization’s SharePoint site

Définir le connecteur¶

En tant qu’ingénieur des données, effectuez les tâches suivantes pour configurer le connecteur :

Installer le connecteur¶

Créez une base de données et un schéma dans Snowflake pour que le connecteur puisse stocker les données ingérées. Accordez les Privilèges de base de données requis au rôle créé lors de la première étape. Remplacez l’espace réservé au rôle par la valeur réelle et utilisez les commandes SQL suivantes :

CREATE DATABASE DESTINATION_DB;
CREATE SCHEMA DESTINATION_DB.DESTINATION_SCHEMA;
GRANT USAGE ON DATABASE DESTINATION_DB TO ROLE <CONNECTOR_ROLE>;
GRANT USAGE ON SCHEMA DESTINATION_DB.DESTINATION_SCHEMA TO ROLE <CONNECTOR_ROLE>;
GRANT CREATE TABLE ON SCHEMA DESTINATION_DB.DESTINATION_SCHEMA TO ROLE <CONNECTOR_ROLE>;

Copy

Naviguez jusqu’à la page d’aperçu d’Openflow. Dans la section Featured connectors, sélectionnez View more connectors.
Sur la page des connecteurs Openflow, trouvez le connecteur et sélectionnez Add to runtime.
Dans la boîte de dialogue Select runtime, sélectionnez votre environnement d’exécution dans la liste déroulante Available runtimes.
Sélectionnez Add.

Note

Avant d’installer le connecteur, assurez-vous que vous avez créé une base de données et un schéma dans Snowflake pour que le connecteur puisse stocker les données ingérées.
Authentifiez-vous au déploiement avec les identifiants de votre compte Snowflake et sélectionnez Allow lorsque vous êtes invité à autoriser l’application d’exécution à accéder à votre compte Snowflake. Le processus d’installation du connecteur prend quelques minutes.
Authentifiez-vous auprès de l’environnement d’exécution avec les identifiants de votre compte Snowflake.

Le canevas Openflow apparaît avec le groupe de processus du connecteur ajouté.

Configuration du connecteur¶

Renseigner les paramètres du groupe de processus
1. Cliquez avec le bouton droit de la souris sur le groupe de processus importé et sélectionnez Paramètres.
2. Saisissez les valeurs de paramètre requises comme décrit dans Paramètres source Sharepoint Cortex Connect, Paramètres de destination Sharepoint Cortex Connect et Paramètres d’ingestion Sharepoint Cortex Connect.

Paramètres de la source Sharepoint Cortex Connect¶

Pour tous les connecteurs :

Paramètre	Description
URL de site SharePoint	URL ou site SharePoint à partir duquel le connecteur va ingérer du contenu
ID client SharePoint	ID client Microsoft Entra. Pour en savoir plus sur l’ID client et sur la manière de le trouver dans Microsoft Entra, voir ID d’application (ID client).
Secret du client SharePoint	Secret du client Microsoft Entra. Pour en savoir plus sur le secret d’un client et sur la manière de le trouver dans Microsoft Entra, voir Certificats & secrets.
ID locataire SharePoint	ID locataire Microsoft Entra. Pour en savoir plus sur l’ID de locataire et sur la façon de le trouver dans Microsoft Entra, consultez Trouvez votre ID de locataire Microsoft 365.

Pour les connecteurs ACL uniquement :

Paramètre	Description
Clé privée de l’application Sharepoint	Une clé privée de l’application générée au format PEM. La clé doit être non chiffrée.
Domaine du site Sharepoint	Nom de domaine du site Sharepoint synchronisé.
Certificat d’application Sharepoint	Un certificat d’application généré au format PEM.

Paramètres de destination de Sharepoint Cortex Connect¶

Paramètre	Description	Obligatoire
Base de données de destination	La base de données dans laquelle les données seront conservées. Elle doit déjà exister dans Snowflake. Le nom est sensible à la casse. Pour les identificateurs sans guillemets, indiquez le nom en majuscules.	Oui
Schéma de destination	Le schéma dans lequel les données seront conservées, qui doit déjà exister dans Snowflake. Le nom est sensible à la casse. Pour les identificateurs sans guillemets, indiquez le nom en majuscules. Voir l’exemple suivant : `CREATE SCHEMA SCHEMA_NAME` ou `CREATE SCHEMA schema_name` : utilisez `SCHEMA_NAME`. `CREATE SCHEMA "schema_name"` ou `CREATE SCHEMA "SCHEMA_NAME"` : utilisez `schema_name` ou `SCHEMA_NAME`, respectivement.	Oui
Identificateur de compte Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : doit être vide. KEY_PAIR : nom du compte Snowflake au format [nom-organisation]-[nom-compte] où les données seront conservées.	Oui
Stratégie d’authentification Snowflake	Lorsque vous utilisez : Déploiement Snowflake Openflow ou BYOC : Utilisez SNOWFLAKE_SESSION_TOKEN. Ce jeton est géré automatiquement par Snowflake. Les déploiements BYOC doivent disposer de rôles d’exécution configurés au préalable pour utiliser le SNOWFLAKE_SESSION_TOKEN. BYOC: Alternatively BYOC can use KEY_PAIR as the value for authentication strategy.	Oui
Clé privée de Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : doit être vide. KEY_PAIR : Doit correspondre à la clé privée RSA utilisée pour l’authentification. The RSA key must be formatted according to PKCS8 standards and have standard PEM headers and footers. Note that either a Snowflake Private Key File or a Snowflake Private Key must be defined.	Non
Fichier de clé privée de Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : Le fichier de la clé privée doit être vide. KEY_PAIR : Chargez le fichier qui contient la clé privée RSA utilisée pour l’authentification auprès de Snowflake, formatée conformément aux normes PKCS8 et possédant des en-têtes et des pieds de page PEM standards. La ligne d’en-tête commence par `-----BEGIN PRIVATE`. Pour charger le fichier de la clé privée, cochez la case Reference asset.	Non
Mot de passe de la clé privée de Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : doit être vide. KEY_PAIR : fournissez le mot de passe associé au fichier de la clé privée Snowflake.	Non
Rôle Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : Utilisez votre rôle d’exécution. Vous pouvez trouver votre rôle d’exécution dans l’UI d’Openflow, en naviguant jusqu’à View Details pour votre exécution. Stratégie d’authentification KEY_PAIR : Utilisez un rôle valide configuré pour votre utilisateur de service.	Oui
Nom d’utilisateur Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : doit être vide. KEY_PAIR : indiquez le nom d’utilisateur utilisé pour vous connecter à l’instance Snowflake.	Oui
Entrepôt Snowflake	Entrepôt Snowflake utilisé pour exécuter des requêtes.	Oui

Paramètres d’ingestion de Sharepoint Cortex Connect¶

Pour tous les connecteurs :

Paramètre	Description
Dossier source SharePoint	Les fichiers pris en charge de ce dossier et de tous ses sous-dossiers sont ingérés dans Snowflake. Le chemin du dossier est relatif à une bibliothèque de documents partagés.
Extensions de fichiers à ingérer	Une liste séparée par des virgules qui spécifie les extensions de fichiers à ingérer. Le connecteur essaie d’abord de convertir les fichiers au format PDF, si possible. Néanmoins, la vérification de l’extension est effectuée sur l’extension du fichier d’origine. Pour en savoir plus sur les formats qui peuvent être convertis, consultez Options de format Si certaines des extensions de fichier spécifiées ne sont pas prises en charge par Cortex Parse Document, le connecteur ignore ces fichiers, connecte un message d’avertissement dans un journal d’événements et poursuit le traitement des autres fichiers.
Nom de la bibliothèque de documents Sharepoint	Une bibliothèque du site SharePoint à partir de laquelle les fichiers sont ingérés.
Nom de la table de hachage du fichier Snowflake	Nom de la table dans laquelle sont stockés les hachages de fichiers afin de déterminer si le contenu a été modifié. Ce paramètre ne doit généralement pas être modifié.
Mode OCR	Le mode OCR à utiliser lors de l’analyse des fichiers avec la fonction AISQL AI_PARSE_DOCUMENT. La valeur peut être `OCR` ou `LAYOUT`. En mode `OCR`, seul le contenu brut du texte est extrait, sans tenir compte du formatage et des structures des tables. En mode `LAYOUT`, la sortie conserve les structures des tables sous forme de Markdown.
Rôle de l’utilisateur Snowflake Cortex Search Service	Identificateur d’un rôle auquel sont attribuées des autorisations d’utilisation du service Cortex Search.

Pour les connecteurs ACL uniquement :

Paramètre	Description
Groupes de sites Sharepoint activés	Indique si la fonctionnalité Groupes de sites est activée.

Cliquez avec le bouton droit de la souris sur l’avion et sélectionnez Enable all Controller Services.
Cliquez avec le bouton droit de la souris sur le groupe de processus importé et sélectionnez Start. Le connecteur démarre l’ingestion des données.
Requête auprès du service Cortex Search.

Cas d’utilisation 3 : Personnaliser la définition du connecteur¶

Personnalisez la définition du connecteur pour :

Traiter les fichiers ingérés avec Document AI.
Effectuer des performances personnalisées sur les fichiers ingérés.

Définir le connecteur¶

En tant qu’ingénieur des données, effectuez les tâches suivantes pour configurer le connecteur :

Installer le connecteur¶

Naviguez jusqu’à la page d’aperçu d’Openflow. Dans la section Featured connectors, sélectionnez View more connectors.
Sur la page des connecteurs Openflow, trouvez le connecteur et sélectionnez Add to runtime.
Dans la boîte de dialogue Select runtime, sélectionnez votre environnement d’exécution dans la liste déroulante Available runtimes.
Sélectionnez Add.

Note

Avant d’installer le connecteur, assurez-vous que vous avez créé une base de données et un schéma dans Snowflake pour que le connecteur puisse stocker les données ingérées.
Authentifiez-vous au déploiement avec les identifiants de votre compte Snowflake et sélectionnez Allow lorsque vous êtes invité à autoriser l’application d’exécution à accéder à votre compte Snowflake. Le processus d’installation du connecteur prend quelques minutes.
Authentifiez-vous auprès de l’environnement d’exécution avec les identifiants de votre compte Snowflake.

Le canevas Openflow apparaît avec le groupe de processus du connecteur ajouté.

Configuration du connecteur¶

Personnaliser la définition du connecteur.
1. Supprimer les groupes de processus suivants :
  - Vérifier si le contenu est dupliqué
  - Zone de préparation et d’analyse du PDF Snowflake
  - Mise à jour du Snowflake Cortex
  - (Facultatif) Traiter les groupes Microsoft365
2. Attachez tout traitement personnalisé à la sortie du groupe de traitement Process SharePoint Metadata. Chaque fichier de flux représente une seule modification du fichier SharePoint.
Renseignez les paramètres du groupe de processus. Suivez le même processus que pour le cas d’utilisation 1. Notez qu’après avoir modifié la définition du connecteur, il se peut que tous les paramètres ne soient pas nécessaires.
Exécutez le flux.
1. Démarrez le groupe de processus. Le flux créera tous les objets requis à l’intérieur de Snowflake.
2. Cliquez avec le bouton droit de la souris sur le groupe de processus importé et sélectionnez Start.
Requête auprès du service Cortex Search.

Activation des groupes de sites Sharepoint¶

Application Microsoft Graph pour les groupes de sites¶

En plus des étapes spécifiées dans Obtenir les identifiants de connexion, procédez comme suit :

Ajoutez l’autorisation Sites.Selected SharePoint.

Note

Vous devriez voir Sites.Selected dans les deux autorisations Microsoft Graph et SharePoint.
Générez une paire de clés. Vous pouvez également créer un certificat auto-signé avec openssl en exécutant la commande suivante :
```
openssl req -x509 -nodes -newkey rsa:2048 -keyout key.pem -out cert.pem -days 365
```
Copy
Note

La commande ci-dessus ne chiffre pas la clé privée générée. Supprimez l’argument -nodes si vous souhaitez générer une clé chiffrée.
Joignez le certificat à l’application Microsoft Graph.

Requête auprès du service Cortex Search Service¶

Vous pouvez utiliser le service Cortex Search pour créer des applications de chat et de recherche permettant de dialoguer avec vos documents ou d’effectuer des requêtes dans SharePoint.

Une fois que vous avez installé et configuré le connecteur et qu’il commence à ingérer le contenu de Sharepoint, vous pouvez lancer une requête auprès du service Cortex Search. Pour plus d’informations sur l’utilisation de Cortex Search, voir Requête à un service de Cortex Search.

Réponses des filtres

Pour limiter les réponses du service Cortex Search aux documents auxquels un utilisateur spécifique a accès dans SharePoint, vous pouvez spécifier un filtre contenant l’ID ou l’adresse électronique de l’utilisateur lorsque vous effectuez une requête dans Cortex Search. Par exemple, filter.@contains.user_ids ou filter.@contains.user_emails. Le nom du service Cortex Search créé par le connecteur est search_service dans le schéma Cortex.

Exécutez le code SQL suivant dans une feuille de calcul SQL pour interroger le service Cortex Search avec des fichiers ingérés depuis votre site SharePoint.

Remplacez les éléments suivants :

application_instance_name: Nom de votre base de données et de votre instance d’application connecteur.
user_emailID: ID d’email de l’utilisateur pour lequel vous souhaitez filtrer les réponses.
your_question: La question pour laquelle vous souhaitez obtenir des réponses.
number_of_results: Nombre maximal de résultats à renvoyer dans la réponse. La valeur maximale est de 1000 et la valeur par défaut est de 10.

SELECT PARSE_JSON(
  SNOWFLAKE.CORTEX.SEARCH_PREVIEW(
    '<application_instance_name>.cortex.search_service',
      '{
        "query": "<your_question>",
         "columns": ["chunk", "web_url"],
         "filter": {"@contains": {"user_emails": "<user_emailID>"} },
         "limit": <number_of_results>
       }'
   )
)['results'] AS results

Copy

Voici la liste complète des valeurs que vous pouvez saisir pour columns:

Pour tous les connecteurs :

Nom de la colonne	Type	Description
`full_name`	Chaîne	Un chemin complet vers le fichier à partir de la racine des documents du site Sharepoint. Exemple : `folder_1/folder_2/file_name.pdf`.
`web_url`	Chaîne	Une URL qui affiche un fichier Sharepoint original dans un navigateur.
`last_modified_date_time`	Chaîne	Date et heure de la dernière modification de l’élément.
`chunk`	Chaîne	Un morceau de texte du document qui correspond à la requête de Cortex Search.

Pour les connecteurs ACL uniquement :

Nom de la colonne	Type	Description
`user_ids`	Tableau	Un tableau des IDs des utilisateurs de Microsoft 365 qui ont accès à la documentation. Il inclut également les IDs utilisateurs de tous les groupes Microsoft 365 qui sont affectés au document. Pour trouver un ID d’utilisateur spécifique, voir `Obtenir un <https://learn.microsoft.com/en-us/graph/api/user-get?view=graph-rest-1.0&tabs=http>d’utilisateur`_.
`user_emails`	Tableau	Un tableau d’IDs de courriels d’utilisateurs Microsoft 365 qui ont accès à la documentation. Il inclut également les IDs de courriels utilisateurs de tous les groupes Microsoft 365 qui sont affectés au document.

Exemple : Requête auprès d’un assistant AI pour obtenir des informations sur les ressources humaines (HR)

Vous pouvez utiliser Cortex Search pour interroger un assistant AI à l’intention des employés afin d’obtenir les dernières versions des informations HR, telles que l’onboarding, le code de conduite, les processus d’équipe et les politiques de l’organisation. En utilisant des filtres de réponse, vous pouvez également permettre aux membres de l’équipe HR d’effectuer des requêtes sur les contrats des employés tout en respectant les contrôles d’accès configurés dans SharePoint.

Exécutez la commande suivante dans une feuille de calcul SQL pour interroger le service Cortex Search avec des fichiers provenant de SharePoint. Sélectionnez la base de données comme nom d’instance de votre application et le schéma comme Cortex.

Remplacez les éléments suivants :

application_instance_name: Nom de votre base de données et de votre instance d’application connecteur.
user_emailID: ID d’email de l’utilisateur pour lequel vous souhaitez filtrer les réponses.

SELECT PARSE_JSON(
     SNOWFLAKE.CORTEX.SEARCH_PREVIEW(
          '<application_instance_name>.cortex.search_service',
          '{
             "query": "What is my vacation carry over policy?",
             "columns": ["chunk", "web_url"],
             "filter": {"@contains": {"user_emails": "<user_emailID>"} },
             "limit": 1
          }'
     )
 )['results'] AS results

Copy

Exécutez le code suivant dans une feuille de calcul Python <label-snowsight_worksheets_create> pour interroger le service Cortex Search avec des fichiers provenant de SharePoint. Veillez à ajouter le paquet snowflake.core à votre base de données.

Remplacez les éléments suivants :

application_instance_name: Nom de votre base de données et de votre instance d’application connecteur.
user_emailID: ID d’email de l’utilisateur pour lequel vous souhaitez filtrer les réponses.

import snowflake.snowpark as snowpark
from snowflake.snowpark import Session
from snowflake.core import Root

def main(session: snowpark.Session):

   root = Root(session)

   # fetch service
   my_service = (root
     .databases["<application_instance_name>"]
     .schemas["cortex"]
     .cortex_search_services["search_service"]
   )

   # query service
   resp = my_service.search(
     query="What is my vacation carry over policy?",
     columns = ["chunk", "web_url"],
     filter = {"@contains": {"user_emails": "<user_emailID>"} },
     limit=1
   )
   return (resp.to_json())

Copy

Exécutez le code suivant dans une interface de ligne de commande pour interroger le service Cortex Search avec les fichiers ingérés depuis votre site SharePoint. Vous devrez vous authentifier à l’aide d’une paire de clés et de OAuth pour accéder aux APIs REST de Snowflake. Pour plus d’informations, voir REST API et Authentification d”Snowflake REST APIs avec Snowflake.

Remplacez les éléments suivants :

application_instance_name: Nom de votre base de données et de votre instance d’application connecteur.
account_url: Votre URL de compte Snowflake . Pour obtenir des instructions sur la façon de trouver l’URL de votre compte, voir Recherche de l’organisation et du nom de compte pour un compte.

curl --location "https://<account_url>/api/v2/databases/<application_instance_name>/schemas/cortex/cortex-search-services/search_service" \
     --header 'Content-Type: application/json' \
     --header 'Accept: application/json' \
     --header "Authorization: Bearer <CORTEX_SEARCH_JWT>" \
     --data '{
         "query": "What is my vacation carry over policy?",
         "columns": ["chunk", "web_url"],
         "limit": 1
     }'

Copy

Exemple de réponse :

{
  "results" : [ {
  "web_url" : "https://<domain>.sharepoint.com/sites/<site_name>/<path_to_file>",
  "chunk" : "Answer to the question asked."
  } ]
}

Recherche de fichiers dans la zone de préparation¶

Les fichiers stockés dans la zone de préparation peuvent avoir des noms illisibles. Pour trouver des fichiers spécifiques, utilisez les tables de métadonnées comme source de référence. Ces tables contiennent le mappage entre les noms de fichier et les IDs fichier correspondants dans la zone de préparation.

Pour les configurations compatibles avec Cortex, utilisez la requête suivante pour rechercher des fichiers :

SELECT DISTINCT METADATA:id FROM DOCS_CHUNKS WHERE METADATA:fullName LIKE '%<file_name>%';

Copy

Pour les configurations hors Cortex, utilisez la requête suivante :

SELECT FILE_ID FROM DOC_METADATA WHERE FILE_NAME = '<file_name>';

Copy

Remplacez <file_name> par le nom ou le nom partiel du fichier que vous recherchez.

Les fichiers de la zone de préparation commencent par l’ID renvoyé par ces requêtes.