Einrichten von Openflow Connector for Excel

Bemerkung

Der Konnektor unterliegt den Bedingungen für Konnektoren.

Unter diesem Thema werden die Schritte zur Einrichtung von Openflow Connector for Excel beschrieben.

Voraussetzungen

  1. Stellen Sie sicher, dass Sie Allgemeine Informationen zu Openflow Connector for Excel gelesen haben.

  2. Stellen Sie sicher, dass Sie Openflow eingerichtet haben.

Die Anmeldeinformationen erhalten

In diesem Abschnitt werden die Schritte zum Abrufen Ihrer Anmeldeinformationen für die Konfiguration des Konnektors beschrieben. Abhängig von Ihrer Datenquelle:

AWS-Anmeldeinformationen abrufen

Als AWS Administrator führen Sie die folgenden Aufgaben aus:

  1. Melden Sie sich bei Ihrer AWS IAM-Konsole an.

  2. Wählen Sie die Nummer unter Users aus, und wählen Sie dann Create user.

  3. Geben Sie den Benutzernamen, die Gruppe und ggf. zusätzliche Berechtigungen an. Der Benutzer muss mindestens s3:GetObject-Zugriff auf Objekte haben, die der Konnektor aus dem S3 Bucket liest.

  4. Nachdem der Benutzer erstellt wurde, navigieren Sie in der Ansicht des Benutzers zu Security Credentials » Access Keys.

  5. Wählen Sie Create access key aus. Der neue Zugriffsschlüssel darf nur Zugriff auf bestimmte Ressourcen gewähren. Für eine bessere Sicherheit und Zugriffskontrolle empfiehlt Snowflake, nur den Zugriff auf bestimmte S3-Buckets zuzulassen.

  6. Beachten Sie die Access Key und Secret Access Key.

SharePoint-Anmeldeinformationen abrufen

Der Konnektor verwendet die folgenden Microsoft Graph-APIs, um Daten von SharePoint abzurufen:

Führen Sie als SharePoint-Administrator die folgenden Aktionen durch:

  1. Melden Sie sich bei Ihrem Microsoft Entra-Admin-Center an.

  2. Navigieren Sie zu Applications » App registrations.

  3. Stellen Sie sicher, dass Sie eine Anwendung mit den folgenden MS Graph Application-Berechtigungen haben. Weitere Informationen finden Sie unter Zugriff ohne Benutzer.

    • Für den Zugriff auf die SharePoint-Website muss eine der folgenden Berechtigungen erteilt werden:

      • Sites.Read.All – erlaubt den Lesezugriff für alle Websites.

      • Sites.Selected – schränkt den Zugriff nur auf bestimmte Websites ein.

    • Für den SharePoint-Dateizugriff (für Dateidownloads) muss eine der folgenden Berechtigungen erteilt werden:

      • Files.Read.All – erlaubt den Lesezugriff für alle Dateien.

      • Files.SelectedOperations. Selected – schränkt den Zugriff nur auf Dateien in angegebenen Websites ein.

    Bemerkung

    Snowflake empfiehlt die Verwendung von Ausgewählte Berechtigungen für eine bessere Sicherheit und Zugriffskontrolle.

  4. Beziehen Sie die folgenden Anmeldeinformationen. Möglicherweise müssen Sie sich an den Administrator Ihres Azure- oder Office 365-Kontos wenden, um diese Informationen zu erhalten:

    • Die Website-URL Ihrer Microsoft 365 SharePoint-Website mit Dateien oder Ordnern, die Sie in Snowflake aufnehmen möchten.

    • Ihre Mandanten-ID. Weitere Informationen zur Mandanten-ID und wie Sie sie in Microsoft Entra finden, finden Sie unter So finden Sie Ihre Microsoft 365-Mandanten-ID.

    • Client-ID und Client-Geheimnis für Ihre Microsoft Entra-Anwendung.

Snowflake-Konto einrichten

Als Snowflake-Kontoadministrator führen Sie die folgenden Aufgaben aus:

  1. Erstellen Sie eine neue Rolle oder verwenden Sie eine vorhandene Rolle.

  2. Erstellen Sie einen neuen Benutzer für den Snowflake-Dienst mit dem Typ SERVICE.

  3. Weisen Sie dem Benutzer des Snowflake-Dienstes die Rolle zu, die Sie in den vorherigen Schritten erstellt haben.

  4. Konfigurieren Sie mit Schlüsselpaar-Authentifizierung für den Snowflake SERVICE-Benutzer aus Schritt 2.

  5. Dringend empfohlen Konfigurieren Sie einen von Openflow unterstützten Geheimnismanager, z. B. AWS, Azure und Hashicorp, und speichern Sie die öffentlichen und privaten Schlüssel im Geheimnisspeicher.

    Bemerkung

    Wenn Sie keinen Geheimnis-Manager verwenden möchten, sind Sie dafür verantwortlich, die für die Schlüsselpaar-Authentifizierung verwendeten öffentlichen und privaten Schlüsseldateien gemäß den Sicherheitsrichtlinien Ihrer Organisation zu schützen.

    1. Nachem der Geheimnismanager konfiguriert ist, legen Sie fest, wie Sie sich bei ihm authentifizieren möchten. Auf AWS wird empfohlen, die mit Openflow verbundene Instanzrolle EC2 zu verwenden, damit keine weiteren Geheimnisse gespeichert werden müssen.

    2. Konfigurieren Sie in Openflow einen Parameter Provider, der mit diesem Geheimnismanager verbunden ist, aus dem Hamburger-Menü oben rechts. Navigieren Sie zu Controller Settings » Parameter Provider, und rufen Sie Ihre Parameterwerte ab.

    3. Zu diesem Zeitpunkt können alle Anmeldeinformationen mit den zugehörigen Parameterpfaden referenziert werden, und es müssen keine sensiblen Werte innerhalb von Openflow aufbewahrt werden.

  6. Wenn andere Snowflake-Benutzer Zugriff auf die vom Konnektor aufgenommenen Rohdokumente und -tabellen benötigen (z. B. für die benutzerdefinierte Verarbeitung in Snowflake), weisen Sie diesen Benutzern die in Schritt 1 erstellte Rolle zu.

  7. Erstellen Sie in Snowflake eine Datenbank und ein Schema für den Konnektor, um die aufgenommenen Daten zu speichern. Erteilen Sie der im ersten Schritt erstellten Rolle die erforderlichen Berechtigungen von Datenbanken. Ersetzen Sie den Platzhalter für die Rolle durch den tatsächlichen Wert und verwenden Sie die folgenden SQL-Befehle:

    CREATE DATABASE excel_destination_db;
    CREATE SCHEMA excel_destination_db.excel_destination_schema;
    GRANT USAGE ON DATABASE excel_destination_db TO ROLE <excel_connector_role>;
    GRANT USAGE ON SCHEMA excel_destination_db.excel_destination_schema TO ROLE <excel_connector_role>;
    GRANT CREATE TABLE ON SCHEMA excel_destination_db.excel_destination_schema TO ROLE <excel_connector_role>;
    
    Copy
  8. Erstellen Sie ein Warehouse, das vom Konnektor verwendet werden soll, oder verwenden Sie ein vorhandenes. Beginnen Sie mit der kleinsten Warehouse-Größe und experimentieren Sie dann mit der Größe in Abhängigkeit von der Anzahl der zu replizierenden Tabellen und der Menge der übertragenen Daten. Große Tabellenzahlen lassen sich in der Regel besser mit Multi-Cluster-Warehouses skalieren als mit größeren Warehouse-Größen.

  9. Stellen Sie sicher, dass der Benutzer mit der Rolle, die der Konnektor verwendet, über die erforderlichen Berechtigungen zur Nutzung des Warehouse verfügt. Wenn das nicht der Fall ist, gewähren Sie der Rolle die erforderlichen Berechtigungen:

    CREATE WAREHOUSE excel_connector_warehouse WITH WAREHOUSE_SIZE = 'X-Small';
    GRANT USAGE ON WAREHOUSE excel_connector_warehouse TO ROLE <excel_connector_role>;
    
    Copy

Einrichten des Konnektors

Als Data Engineer führen Sie die folgenden Aufgaben aus, um einen Konnektor zu installieren und zu konfigurieren:

Konnektor installieren

  1. Navigieren Sie zur Openflow-Übersichtsseite. Wählen Sie im Abschnitt Featured connectors die Option View more connectors aus.

  2. Suchen Sie auf der Seite Openflow-Konnektoren den Konnektor und wählen Sie Add to runtime.

  3. Wählen Sie im Dialog Select runtime Ihre Laufzeit aus der Dropdown-Liste Available runtimes aus.

  4. Wählen Sie Add aus.

    Bemerkung

    Bevor Sie den Konnektor installieren, stellen Sie sicher, dass Sie in Snowflake eine Datenbank und ein Schema für den Konnektor erstellt haben, in dem die aufgenommenen Daten gespeichert werden.

  5. Authentifizieren Sie sich bei der Bereitstellung mit den Anmeldedaten Ihres Snowflake-Kontos und wählen Sie Allow, wenn Sie dazu aufgefordert werden, damit die Laufzeitanwendung auf Ihr Snowflake-Konto zugreifen kann. Die Installation des Konnektors nimmt einige Minuten in Anspruch.

  6. Authentifizieren Sie sich bei der Laufzeit mit den Anmeldeinformationen Ihres Snowflake-Kontos.

Das Openflow-Canvas wird mit der hinzugefügten Prozessgruppe des Konnektors angezeigt.

Konnektor konfigurieren

  1. Konfigurieren Sie den Konnektor so, dass er alle Geheimnisse, die der Konnektor benötigt, z. B. private Schlüssel für die Schlüsselpaar-Authentifizierung und Zertifikate, vom unterstützten Geheimnismanager abruft.

  2. Klicken Sie mit der rechten Maustaste auf die importierte Prozessgruppe und wählen Sie Parameters.

  3. Geben Sie die erforderlichen Parameterwerte ein, wie unter Ablaufparameter beschrieben.

Ablaufparameter

Dieser Abschnitt beschreibt die Ablaufarameter, die Sie auf der Grundlage der Datenquelle und der Parameterkontexte konfigurieren können:

Ablaufparameter: für Amazon S3

Aufnahmeparameter für Microsoft Excel (S3 zu Snowflake)

Parameter

Beschreibung

Erforderlich

Destination Table Prefix

Das Präfix der Tabelle im Zielschema, in der die aus der Excel-Datei abgerufenen Daten persistiert werden. Die Tabelle wird automatisch durch den Konnektor erstellt.

Nein

File Password

Kennwort zum Schutz der Excel-Datei. Gilt nur, wenn der Schutztyp PASSWORD ist.

Nein

Protection Type

Schutzart der Excel-Datei. Der Wert kann entweder UNPROTECTED sein, wenn die Datei ungeschützt ist, oder PASSWORD, wenn die Datei mit einem Kennwort geschützt ist.

Ja

Ranges

Die A1-Notation der durch Kommas getrennten Bereiche, aus denen Werte abgerufen werden sollen. Zum Beispiel: Sheet1!A1:B2,Sheet2!D4:E5,Sheet3. Die erste Zeile im ausgewählten Bereich muss Spaltennamen enthalten. Wenn nicht angegeben, wird die gesamte Arbeitsmappe aufgenommen. Die angegebenen Bereiche werden auf alle Dateien angewendet, die in S3 Object Keys angegeben sind.

Nein

S3 Bucket

Der S3-Bucket, aus dem die Excel-Datei abgerufen werden soll.

Ja

S3 Object Keys

Liste der durch Kommas getrennten Objektschlüssel innerhalb des S3 Buckets, die die abzurufenden Excel-Dateien enthalten. Beispiel: file1.xlsx,file2.xlsx.

Ja

Zeitplan

Zeitplan für die Konnektoraufnahme.

Ja

Quellsystemparameter für Microsoft Excel (S3 zu Snowflake)

Parameter

Beschreibung

Erforderlich

AWS Access Key ID

Zugriffsschlüssel-ID für AWS-Benutzer, die zum Abrufen der Excel-Datei verwendet wird.

Ja

AWS Secret Access Key

Geheimer Zugangsschlüssel für den AWS-Benutzer, der zum Abrufen der Excel-Datei verwendet wird.

Ja

AWS-Region

AWS-Region, in der sich der S3 Bucket befindet.

Ja

Zielsystemparameter für Microsoft Excel (S3 zu Snowflake)

Parameter

Beschreibung

Erforderlich

Destination Database

Name (Groß-/Kleinschreibung beachten) der Snowflake-Datenbank, in die die Daten aufgenommen werden sollen.

Ja

Destination Schema

Name (Groß- und Kleinschreibung beachten) des Snowflake-Schemas, in dem die Tabellen erstellt werden.

Ja

Snowflake Account Identifier

Snowflake-Kontoname im Format [organisation-name]-[account-name], in dem die aus der Excel-Datei abgerufenen Daten gespeichert werden sollen.

Ja

Snowflake Private Key

Der private Schlüssel, formatiert nach den Standards von PKCS8 und mit Standard-PEM-Header und -Footer, der bei der Authentifizierung von Schlüsselpaaren verwendet wird.

Ja

Snowflake Private Key Password

Das Kennwort für den Snowflake Private Key. Muss ohne Wert gelassen werden, wenn der Schlüssel nicht durch ein Kennwort geschützt ist.

Nein

Snowflake Role

Snowflake-Rolle, die vom Konnektor verwendet werden soll.

Ja

Snowflake User

Benutzername für ein Snowflake-Konto.

Ja

Snowflake Warehouse

Snowflake-Warehouse, das zur Ausführung von Abfragen beim Einfügen von Daten in die Zieltabelle verwendet wird.

Ja

Ablaufparameter: für SharePoint

Aufnahmeparameter für Microsoft Excel (SharePoint zu Snowflake)

Parameter

Beschreibung

Erforderlich

Destination Table Prefix

Das Präfix der Tabelle im Zielschema, in der die aus der Excel-Datei abgerufenen Daten persistiert werden sollen. Die Tabelle wird automatisch durch den Konnektor erstellt.

Nein

File Password

Kennwort zum Schutz der Excel-Datei. Gilt nur, wenn der Schutztyp PASSWORD ist.

Nein

Protection Type

Schutzart der Excel-Datei. Der Wert kann entweder UNPROTECTED sein, wenn die Datei ungeschützt ist, oder PASSWORD, wenn die Datei mit einem Kennwort geschützt ist.

Ja

Ranges

Die A1-Notation der durch Kommas getrennten Bereiche, aus denen Werte abgerufen werden sollen. Zum Beispiel: Sheet1!A1:B2,Sheet2!D4:E5,Sheet3. Die erste Zeile im ausgewählten Bereich muss Spaltennamen enthalten. Wenn nicht angegeben, wird die gesamte Arbeitsmappe aufgenommen. Die angegebenen Bereiche werden auf alle Dateien angewendet, die in SharePoint Files angegeben sind.

Nein

Zeitplan

Zeitplan für die Konnektoraufnahme.

Ja

SharePoint Document Library Name

Eine Bibliothek auf der SharePoint-Website, auf der sich die aufgenommenen Dateien befinden.

Ja

SharePoint Files

Liste der durch Kommas getrennten Pfade (relativ zum Stammverzeichnis der Dokumentbibliothek) der Excel-Dateien, die aufgenommen werden sollen. Beispiel: file1.xlsx,folder/file2.xlsx.

Ja

Aufnahmeparameter für Microsoft Excel (SharePoint zu Snowflake)

Parameter

Beschreibung

Erforderlich

SharePoint Client ID

Microsoft Entra Client ID. Informationen über die Client-ID und wie man sie in Microsoft Entra findet, finden Sie unter Anwendungs-ID (Client-ID).

Ja

SharePoint Client Secret

Microsoft Entra Client secret. Informationen über ein Client-Geheimnis und wie man es in Microsoft Entra findet, finden Sie unter Zertifikate und Geheimnisse.

Ja

SharePoint-Website-URL

URL der Website SharePoint, von der die importierten Dateien heruntergeladen werden.

Ja

SharePoint Tenant ID

Microsoft Entra tenant ID. Weitere Informationen zur Mandanten-ID und wie Sie sie in Microsoft Entra finden, finden Sie unter So finden Sie Ihre Microsoft 365-Mandanten-ID.

Ja

Zielsystemparameter für Microsoft Excel (SharePoint zu Snowflake)

Parameter

Beschreibung

Erforderlich

Destination Database

Name (Groß-/Kleinschreibung beachten) der Snowflake-Datenbank, in die die Daten aufgenommen werden sollen.

Ja

Destination Schema

Name (Groß- und Kleinschreibung beachten) des Snowflake-Schemas, in dem die Tabellen erstellt werden.

Ja

Snowflake Account Identifier

Snowflake-Kontoname im Format [organisation-name]-[account-name], in dem die aus der Excel-Datei abgerufenen Daten gespeichert werden sollen.

Ja

Snowflake Private Key

Der private Schlüssel, formatiert nach den Standards von PKCS8 und mit Standard-PEM-Header und -Footer, der bei der Authentifizierung von Schlüsselpaaren verwendet wird.

Ja

Snowflake Private Key Password

Das Kennwort für den Snowflake Private Key. Muss ohne Wert gelassen werden, wenn der Schlüssel nicht durch ein Kennwort geschützt ist.

Nein

Snowflake Role

Snowflake-Rolle, die vom Konnektor verwendet werden soll.

Ja

Snowflake User

Benutzername für ein Snowflake-Konto.

Ja

Snowflake Warehouse

Snowflake-Warehouse, das zur Ausführung von Abfragen beim Einfügen von Daten in die Zieltabelle verwendet wird.

Ja

Führen Sie den Ablauf aus

  1. Klicken Sie mit der rechten Maustaste auf die Ebene, und wählen Sie Enable all Controller Services.

  2. Klicken Sie mit der rechten Maustaste auf die importierte Prozessgruppe und wählen Sie Start. Der Konnektor startet die Datenaufnahme.

Generierte Tabellennamen

Der Konnektor erstellt Zieltabellen, die nach der folgenden Vorlage benannt werden: {PREFIX}{FILENAME}_{RANGE}. Die Namen sind immer Bezeichner in doppelten Anführungszeichen.

  • {PREFIX} wird durch den Wert des Parameters Destination Table Prefix ersetzt, z. B. prfx_.

  • {FILENAME} wird durch den vollständigen Pfad der importierten Datei ersetzt, z. B. file1.xlsx oder folder/file2.xlsx.

  • {RANGE} wird ersetzt durch:

    • Name des aufgenommenen Blatts, wenn der Wert des Parameters Ranges leer ist.

    • Name des aufgenommenen Blatts mit dem aufgenommenen Bereich, wie im Parameter Ranges angegeben, z. B. Sheet1!A1:B2.

Beispiel für generierte Tabellennamen:

  • "file1.xlsx_Sheet1"

  • "prfx_folder/file2.xlsx_Sheet1!A1:B2"

(Optional) Neukonfiguration des aktuell laufenden Konnektors

Sie können die Konnektorparameter neu konfigurieren, nachdem der Konnektor bereits mit der Datenaufnahme begonnen hat. Wenn Sie die aufgenommenen Dateien oder Bereiche ändern müssen, führen Sie die folgenden Schritte aus, um sicherzustellen, dass die Daten ordnungsgemäß an Snowflake gesendet werden:

  1. Stoppt den Konnektor: Stellt sicher, dass alle Openflow-Prozessoren gestoppt sind.

  2. Zugriff auf die Konfigurationseinstellungen: Navigieren Sie innerhalb von Openflow zu den Konfigurationseinstellungen des Konnektors.

  3. Parameter ändern: Passen Sie die Parameter nach Bedarf an.

  4. Starten des Konnektors: Starten Sie den Konnektor und stellen Sie sicher, dass alle Controller-Dienste gestartet sind.