Einrichten von Openflow Connector for Google Sheets¶

Bemerkung

Dieser Connector unterliegt den `Nutzungsbedingungen für Snowflake Connector<https://www.snowflake.com/legal/snowflake-connector-terms/>`_.

Unter diesem Thema werden die Schritte zur Einrichtung von Openflow Connector for Google Sheets beschrieben.

Voraussetzungen¶

Stellen Sie sicher, dass Sie Allgemeine Informationen zu Openflow Connector for Google Sheets gelesen haben.
Stellen Sie sicher, dass Sie folgende Aufgaben ausgeführt haben: Openflow einrichten – BYOC oder Openflow einrichten - Snowflake-Bereitstellungen.
Stellen Sie bei der Verwendung von Openflow - Snowflake Deployments sicher, dass Sie Konfigurieren der erforderlichen Domänen gelesen haben und Zugriff auf die erforderlichen Domänen für den Google Sheets-Konnektor gewährt haben.

Rufen Sie die Anmeldeinformationen für Google Cloud ab, und richten Sie Ihr Google Cloud-Projekt ein¶

Führen Sie als Google Cloud-Administrator die folgenden Aufgaben aus:

Stellen Sie sicher, dass Sie Folgendes haben:
- Google Benutzer mit Super Admin-Berechtigungen
- Google Cloud-Projekt mit den folgenden Rollen:
  - Organisation Policy Administrator
  - Organisation Administrator
Aktiviert die Erstellung von Servicekontoschlüsseln. Google deaktiviert standardmäßig die Erstellung von Servicekontoschlüsseln.

Diese Richtlinie für die Schlüsselerstellung muss deaktiviert werden, damit Snowflake Openflow die Servicekonto-JSON verwenden kann. Um die Erstellung von Servicekontoschlüsseln zu aktivieren, führen Sie die folgenden Aufgaben aus:
1. Melden Sie sich bei der Google Cloud Console mit einem Super-Admin-Konto an, das über die Rolle „Organizational Policy Admin“ verfügt.
2. Stellen Sie sicher, dass Sie sich in dem Projekt befinden, das Ihrer Organisation zugeordnet ist, und nicht in dem Projekt innerhalb Ihrer Organisation.
3. Wählen Sie Organization Policies aus.
4. Wählen Sie die Richtlinie Disable service account key creation aus.
5. Wählen Sie Manage Policy und schalten Sie die Durchsetzung aus.
6. Wählen Sie Set Policy aus.
Erstellen Sie ein Konto und einen Schlüssel.
Geben Sie die Google Sheets-Tabelle mit der E-Mail-Adresse des Dienstkontos frei. Die E-Mail-Adresse finden Sie in der JSON-Datei des Dienstkontos unter dem Feld client_email. Setzen Sie die Freigabeberechtigungen auf Viewer.
Aktivieren Sie die Google Sheets-API für Ihr Google Cloud-Projekt.

Weitere Informationen dazu finden Sie unter Aktivieren der Google Sheets-API.

Snowflake-Konto einrichten¶

Als Snowflake-Kontoadministrator führen Sie die folgenden Aufgaben aus:

Erstellen Sie eine neue Rolle oder verwenden Sie eine vorhandene Rolle und erteilen Sie die Berechtigungen von Datenbanken.
Erstellen Sie einen neuen Benutzer für den Snowflake-Dienst mit dem Typ SERVICE.
Weisen Sie dem Benutzer des Snowflake-Dienstes die Rolle zu, die Sie in den vorherigen Schritten erstellt haben.
Konfigurieren Sie mit Schlüsselpaar-Authentifizierung für den Snowflake SERVICE-Benutzer aus Schritt 2.
Snowflake empfiehlt diesen Schritt dringend. Konfigurieren Sie einen von Openflow unterstützten Geheimnismanager, z. B. AWS, Azure und Hashicorp, und speichern Sie die öffentlichen und privaten Schlüssel im Geheimnisspeicher.

Bemerkung

Wenn Sie aus irgendeinem Grund keinen Geheimnismanager verwenden möchten, sind Sie dafür verantwortlich, die für die Schlüsselpaar-Authentifizierung verwendeten öffentlichen und privaten Schlüsseldateien gemäß den Sicherheitsrichtlinien Ihrer Organisation zu schützen.
1. Nachem der Geheimnismanager konfiguriert ist, legen Sie fest, wie Sie sich bei ihm authentifizieren möchten. Auf AWS wird empfohlen, die mit Openflow verknüpfte EC2-Instanzrolle zu verwenden, da auf diese Weise keine weiteren Geheimnisse gespeichert werden müssen.
2. Konfigurieren Sie in Openflow über das Hamburger-Menü oben rechts einen Parameteranbieter, der mit diesem Secrets Manager verbunden ist. Navigieren Sie zu Controller Settings » Parameter Provider und rufen Sie dann Ihre Parameterwerte ab.
3. Zu diesem Zeitpunkt können alle Anmeldeinformationen mit den zugehörigen Parameterpfaden referenziert werden, und es müssen keine sensiblen Werte innerhalb von Openflow aufbewahrt werden.
Wenn andere Snowflake-Benutzer Zugriff auf die vom Konnektor aufgenommenen Rohdokumente und -tabellen benötigen (z. B. für die benutzerdefinierte Verarbeitung in Snowflake), weisen Sie diesen Benutzern die in Schritt 1 erstellte Rolle zu.
Bestimmen Sie ein Warehouse, das der Konnektor verwenden soll. Beginnen Sie mit der kleinsten Warehouse-Größe und experimentieren Sie dann mit der Größe in Abhängigkeit von der Anzahl der zu replizierenden Tabellen und der Menge der übertragenen Daten. Große Tabellenzahlen lassen sich in der Regel besser mit Multi-Cluster-Warehouses skalieren als mit größeren Warehouse-Größen.

Einrichten des Konnektors¶

Als Data Engineer führen Sie die folgenden Aufgaben aus, um den Konnektor zu installieren und zu konfigurieren:

Konnektor installieren¶

Um den Konnektor zu installieren, gehen Sie als Data Engineer wie folgt vor:

Navigieren Sie zur Übersichtsseite von Openflow. Wählen Sie im Abschnitt Featured connectors die Option View more connectors aus.
Suchen Sie auf der Seite Openflow-Konnektoren den Konnektor und wählen Sie Add to runtime.
Wählen Sie im Dialogfeld Select runtime Ihre Laufzeitumgebung aus der Dropdown-Liste Available runtimes aus, und klicken Sie auf Add.

Bemerkung

Bevor Sie den Konnektor installieren, stellen Sie sicher, dass Sie in Snowflake eine Datenbank und ein Schema für den Konnektor erstellt haben, in dem die aufgenommenen Daten gespeichert werden.
Authentifizieren Sie sich bei der Bereitstellung mit den Anmeldedaten Ihres Snowflake-Kontos und wählen Sie Allow, wenn Sie dazu aufgefordert werden, damit die Laufzeitanwendung auf Ihr Snowflake-Konto zugreifen kann. Die Installation des Konnektors nimmt einige Minuten in Anspruch.
Authentifizieren Sie sich bei der Laufzeit mit den Anmeldeinformationen Ihres Snowflake-Kontos.

Das Openflow-Canvas wird mit der hinzugefügten Prozessgruppe des Konnektors angezeigt.

Konnektor konfigurieren¶

Klicken Sie mit der rechten Maustaste auf die importierte Prozessgruppe und wählen Sie Parameters.
Geben Sie die erforderlichen Parameterwerte ein, wie unter Ablaufparameter beschrieben.

Ablaufparameter¶

Die Konfiguration der Verbindungsdefinition ist in drei Parameterkontexte unterteilt:

Quellsystemparameter für Google Sheets: werden verwendet, um eine Verbindung mit Google Sheets herzustellen.
Zielsystemparameter für Google Sheets: werden verwendet, um die Verbindung mit Snowflake herzustellen.
Aufnahmeparameter für Google Sheets: werden verwendet, um die Konfiguration der von Google Sheets heruntergeladenen Daten zu definieren.

Bemerkung

Der Parameterkontext Aufnahmeparameter für Google Sheets enthält tabellenspezifische Details. Daher müssen Sie für jede neue Tabelle und jede neue Prozessgruppe einen neuen Parameterkontext erstellen.

Um einen neuen Parameterkontext zu erstellen, gehen Sie zum Menü „Openflow Canvas“, wählen Sie Parameter Contexts aus, und fügen Sie einen neuen Parameterkontext hinzu. Er erbt Parameter aus den Parameterkontexten der Zielsystemparameter für Google Sheets und der Quellsystemparameter für Google Sheets.

Die folgenden Tabellen beschreiben die Ablaufparameter, die Sie auf der Grundlage der Parameterkontexte konfigurieren können:

Zielsystemparameter für Google Sheets¶


Parameter	Beschreibung	Erforderlich
Destination Database	Die Datenbank, in der die Daten als persistent gespeichert werden. Muss bereits in Snowflake vorhanden sein. Beim Namen wird zwischen Groß- und Kleinschreibung unterschieden. Bei Bezeichnern ohne Anführungszeichen geben Sie den Namen in Großbuchstaben an.	Ja
Destination Schema	Das Schema, in dem Daten beibehalten werden, muss bereits in Snowflake vorhanden sein. Beim Namen wird zwischen Groß- und Kleinschreibung unterschieden. Bei Bezeichnern ohne Anführungszeichen geben Sie den Namen in Großbuchstaben an. Sehen Sie sich die folgenden Beispiele an: `CREATE SCHEMA SCHEMA_NAME` oder `CREATE SCHEMA schema_name`: verwenden Sie `SCHEMA_NAME` `CREATE SCHEMA "schema_name"` oder `CREATE SCHEMA "SCHEMA_NAME"`: verwenden Sie `schema_name` bzw. `SCHEMA_NAME`.	Ja
Snowflake Authentication Strategy	Bei Verwendung von: Snowflake Openflow-Bereitstellung oder BYOC: Verwenden Sie SNOWFLAKE_MANAGED_TOKEN. Dieses Token wird automatisch von Snowflake verwaltet. Für BYOC-Bereitstellungen müssen zuvor Laufzeitrollen konfiguriert sein, um SNOWFLAKE_MANAGED_TOKEN zu verwenden. BYOC: Alternativ kann BYOC KEY_PAIR als Wert für die Authentifizierungsstrategie verwenden.	Ja
Snowflake Account Identifier	Bei Verwendung von: Strategie für die Authentifizierung mit Sitzungstoken: Muss leer sein. KEY_PAIR: Snowflake-Kontoname im Format [Organisationsname]-[Kontoname], wobei die Daten persistent gespeichert werden.	Ja
Snowflake Private Key	Bei Verwendung von: Strategie für die Authentifizierung mit Sitzungstoken: Muss leer sein. KEY_PAIR: Muss der RSA private Schlüssel sein, der für die Authentifizierung verwendet wird. Der RSA-Schlüssel muss entsprechend den PKCS8-Standards formatiert sein und standardmäßige PEM-Header und Footer haben. Beachten Sie, dass entweder eine private Snowflake-Schlüsseldatei oder ein privater Snowflake-Schlüssel definiert werden muss.	Nein
Snowflake Private Key File	Bei Verwendung von: Strategie für die Authentifizierung mit Sitzungstoken: Die private Schlüsseldatei muss leer sein. KEY_PAIR: Laden Sie die Datei hoch, die den RSA Private Key für die Authentifizierung bei Snowflake enthält, formatiert nach PKCS8-Standards und mit Standard-PEM-Header und -Footer. Die Header-Zeile beginnt mit `-----BEGIN PRIVATE`. Aktivieren Sie das Kontrollkästchen Reference asset, um die Private Key-Datei hochzuladen.	Nein
Snowflake Private Key Password	Bei Verwendung von: Strategie für die Authentifizierung mit Sitzungstoken: Muss leer sein. KEY_PAIR: Geben Sie das Kennwort an, das mit der privaten Snowflake-Schlüsseldatei verbunden ist.	Nein
Snowflake Role	Bei Verwendung von: Strategie für die Authentifizierung mit Sitzungstoken: Verwenden Sie Ihre Snowflake-Rolle. Sie finden Ihre Snowflake-Rolle in der Openflow-UI, indem Sie zu View Details für Ihre Laufzeitumgebung navigieren. KEY_PAIR Authentifizierungsstrategie: Verwenden Sie eine gültige Rolle, die für Ihren Dienstbenutzer konfiguriert ist.	Ja
Snowflake-Benutzername	Bei Verwendung von: Strategie für die Authentifizierung mit Sitzungstoken: Muss leer sein. KEY_PAIR: Geben Sie den Benutzernamen an, der für die Verbindung mit der Snowflake-Instanz verwendet wird.	Ja
Mehrwert-Strategie	Legt fest, wie der Konnektor Werte verarbeitet, die seine internen Größenbeschränkungen (16 MB) während der Replikation überschreiten. Mögliche Werte sind: Fail Table (Standard): Die Tabelle wird als dauerhaft fehlgeschlagen markiert, und die Replikation für diese Tabelle wird angehalten. Set Null: Der Wert wird durch `NULL` in der Zieltabelle ersetzt. Verwenden Sie dies, um Tabellenfehler zu verhindern, wenn es akzeptabel ist, Daten in Tabellen zu verlieren, die über den übergroßen Wert hinausgehen.	Nein
Snowflake Warehouse	Snowflake Warehouse, das für die Ausführung von Abfragen verwendet wird.	Ja

Quellsystemparameter für Google Sheets¶


Parameter	Beschreibung
Service Account JSON	Inhalt der Datei mit den Dienstkonto-Anmeldeinformationen, wie „client_id, client_email“ und „private_key“. Kopieren Sie den gesamten Inhalt der Datei.

Aufnahmeparameter für Google Sheets¶

In der folgenden Tabelle sind nur die Parameter aufgeführt, die nicht von anderen Parameterkontexten geerbt werden.


Parameter	Beschreibung
Date Time Render Option	Legt fest, wie das Datum in der Ausgabe dargestellt werden soll. Sie können eine der folgenden Optionen wählen: `SERIAL_NUMBER` und `FORMATTED_STRING`. Wählen Sie `SERIAL_NUMBER` nur, wenn der Parameter „Value Render Option“ auf `UNFORMATTED_VALUE` eingestellt ist. Weitere Informationen dazu finden Sie unter DateTimeRenderOption.
Destination Database	Die Zieldatenbank, in der die Zieltabelle erstellt wird.
Destination Schema	Das Zielschema, in dem die Zieltabelle erstellt wird.
Destination Table Prefix	Das Präfix für die Zieltabelle ist der Ort, an dem die aus Google Sheets abgerufenen Berichtsdaten gespeichert werden. Der Konnektor erstellt eine Zieltabelle für jeden Bereich. Wenn keine Bereiche angegeben werden, werden die Blattnamen als Tabellenbezeichner verwendet. Die erste Zeile in einem Blatt stellt die Spaltennamen in der Zieltabelle dar.
Ranges	Die Liste der Bereiche, die aus der Tabelle abgerufen werden sollen. Wenn kein Bereich angegeben wird, werden alle Blätter der angegebenen Tabelle heruntergeladen. Geben Sie für jeden Bereich entweder in der Notation A1 oder R1C1 an, getrennt durch ein Komma. Beispiel: `Sheet1!A1:B2,Sheet2!D4:E5,Sheet3`.
Run Schedule	Führt einen Zeitplan aus, nach dem die Daten aus Google Sheets abgerufen und in Snowflake gespeichert werden. Standardmäßig wird die Timer-gesteuerte Planungsstrategie verwendet, und hier gibt der Benutzer ein Intervall an, z. B. `8h`.
Spreadsheet ID	Der eindeutige Bezeichner für eine Tabelle. Sie finden sie unter der URL der Tabelle.
Value Render Option	Legt fest, wie die Werte in der Ausgabe wiedergegeben werden sollen. Sie können eine der folgenden Optionen wählen: `FORMATTED_VALUE` und `UNFORMATTED_VALUE`. Wenn Sie `FORMATTED_VALUE` wählen, dann sind alle Spalten in der Zieltabelle vom Typ VARCHAR. Weitere Informationen dazu finden Sie unter ValueRenderOption.

Bemerkung

Der Bezeichner der Zieltabelle ist eine Kombination aus dem Präfix der Zieltabelle und dem Bereichsnamen und muss eindeutig sein. Wenn Sie Daten aus mehreren Tabellenblättern oder einzelnen Blättern herunterladen und die Bereichsnamen nicht eindeutig sind, müssen Sie für jeden Datenfluss ein eindeutiges Präfix für die Zieltabelle angeben. Der Konnektor kann fehlschlagen und bestehende Zieltabellen überschreiben, wenn die Namen der Zieltabellen nicht eindeutig sind.

Führen Sie den Ablauf aus¶

Klicken Sie mit der rechten Maustaste auf die Ebene, und wählen Sie Enable all Controller Services.
Klicken Sie mit der rechten Maustaste auf die importierte Prozessgruppe und wählen Sie Start. Der Konnektor startet die Datenaufnahme.

Bemerkung

Die importierten .xlsx müssen im Google Sheets-Format vorliegen. Wenn Sie Dateien importieren, stellen Sie sicher, dass die Datei in das Google Sheets-Format konvertiert wird, bevor Sie die Abläufe ausführen. Tabellen in einem anderen Format als Google Sheets können nicht gelesen werden. Weitere Informationen finden Sie unter Konvertieren von Dateien in das Google Sheets-Format.