À propos de Openflow Connector for Excel¶
Note
Le connecteur est soumis aux conditions d’utilisation du connecteur.
Cette rubrique décrit les concepts de base de Openflow Connector for Excel, son flux de travail et ses limites.
Openflow Connector for Excel connecte une instance S3 AWS ou un site Microsoft SharePoint avec Snowflake pour ingérer périodiquement des fichiers Microsoft Excel et stocker les données ingérées à l’intérieur de tables Snowflake.
Le connecteur prend en charge l’ingestion des éléments suivants :
Toutes les feuilles de calcul Excel
Feuilles de calcul Excel spécifiées
Plages spécifiées de données présentes dans un classeur Excel
Le connecteur n’effectue que la troncature et l’ingestion de charge. Cela signifie qu’à chaque fois qu’un fichier est ingéré, les données existantes dans Snowflake sont entièrement remplacées par les nouvelles données du fichier.
Utilisez ce connecteur si vous souhaitez effectuer les opérations suivantes :
Charger les données de feuilles de calcul Microsoft Excel dans des tables Snowflake à des fins de reporting et d’analyse
Chargez des données à partir de feuilles de calcul Excel sur SharePoint dans des tables Snowflake pour l’établissement de rapports et l’analyse
Workflow¶
En fonction de votre source de données, les flux de travail pour le connecteur sont les suivants :
Workflow pour la connexion d’une instance S3 AWS¶
Un administrateur AWS effectue les tâches suivantes :
Crée un utilisateur IAM et des identifiants de connexion dans son compte AWS.
Indique la région AWS dans laquelle l’instance S3 existe, par exemple, us-west-2.
Identifie les fichiers à ingérer.
Un administrateur de compte Snowflake effectue les tâches suivantes :
Paramètre les noms de la base de données et du schéma souhaités dans Snowflake.
Désigne un entrepôt à utiliser par le connecteur.
Configure l’utilisateur Snowflake utilisé par le connecteur et un rôle pour cet utilisateur.
Un ingénieur des données effectue les tâches suivantes :
Télécharge et importe le fichier de définition du connecteur dans le canevas Snowflake Openflow.
Configure les paramètres du connecteur :
Fournit les identifiants de connexion AWS.
Fournit les identifiants de connexion des utilisateurs de Snowflake et la configuration.
Définit les critères pour les objets qui sont ingérés en fournissant des filtres.
Démarre le flux dans le canevas Openflow. Lors de son exécution, le flux effectue les actions suivantes :
Télécharge les fichiers spécifiés à partir du compartiment S3.
Extrait les données pertinentes.
Crée la table de destination configurée dans la base de données Snowflake.
Charge les données traitées dans la table Snowflake désignée.
Limitations¶
Actuellement, seuls les fichiers .xlsx sont pris en charge (Office 2007 et versions ultérieures). Les types de fichiers suivants ne sont pas pris en charge :
fichiers .xls (versions Office 97 à Office 2003)
fichiers .xlsm (classeurs compatibles avec les macros)
fichiers .xlsb (classeurs binaires)
Les fichiers .xlsx de grande taille peuvent surcharger l’environnement d’exécution d’Openflow ou causer des problèmes affectant d’autres flux de connecteurs. En raison des limites de mémoire, la taille du fichier (en supposant que le connecteur puisse utiliser toutes les ressources du nœud) ne doit pas être supérieure à :
2 MB pour un nœud d’environnement d’exécution
Small
.10 MB pour un nœud d’environnement d’exécution
Medium
.20 MB pour un nœud d’environnement d’exécution
Large
.
Pour les colonnes comportant des types de données mixtes (par exemple, des nombres et des chaînes) au sein d’une même colonne :
Les valeurs sont enregistrées sous VARIANTs dans la table Snowflake.
Le schéma des données ingérées (c’est-à-dire les types de données pour les colonnes) est actuellement déduit en utilisant les 10 premières lignes. Si les 10 premières lignes sont du même type, il se peut que le type de colonne ne soit pas correctement reconnu comme mixte.
Si toute la feuille de calcul doit être ingérée, sans aucune plage spécifique, la première ligne, commençant dans la cellule A1, doit être la ligne d’en-tête et doit contenir les noms des colonnes.