Einrichten von Openflow Connector for SQL Server¶
Bemerkung
Dieser Connector unterliegt den `Nutzungsbedingungen für Snowflake Connector<https://www.snowflake.com/legal/snowflake-connector-terms/>`_.
Unter diesem Thema wird beschrieben, wie Sie Openflow Connector for SQL Server einrichten.
Weitere Informationen zum inkrementellen Ladeprozess finden Sie unter Inkrementelle Replikation.
Voraussetzungen¶
Stellen Sie vor dem Einrichten des Konnektors sicher, dass Sie die folgenden Voraussetzungen erfüllt haben:
Stellen Sie sicher, dass Sie Allgemeine Informationen zu Openflow Connector for SQL Server gelesen haben.
Stellen Sie sicher, dass Sie Unterstützte SQL-Server-Versionen gelesen haben.
Vergewissern Sie sich, dass Sie Ihre Laufzeitbereitstellung eingerichtet haben. Weitere Informationen dazu finden Sie unter folgenden Themen:
Stellen Sie bei der Verwendung von Openflow - Snowflake Deployments sicher, dass Sie Konfigurieren der erforderlichen Domänen gelesen haben und Zugriff auf die erforderlichen Domänen für den SQL Server-Konnektor gewährt haben.
Ihre SQL Server-Instanz einrichten¶
Bevor Sie den Konnektor einrichten, führen Sie die folgenden Aufgaben in Ihrer SQL Server-Umgebung durch:
Bemerkung
Sie müssen diese Aufgaben als Datenbankadministrator ausführen.
Aktivieren Sie die Änderungsverfolgung für die Datenbanken und Tabellen, für die Sie die Replikation planen, wie im folgenden Beispiel für SQL Server gezeigt:
ALTER DATABASE <database> SET CHANGE_TRACKING = ON (CHANGE_RETENTION = 2 DAYS, AUTO_CLEANUP = ON); ALTER TABLE <schema>.<table> ENABLE CHANGE_TRACKING WITH (TRACK_COLUMNS_UPDATED = ON);
Bemerkung
Führen Sie diese Befehle für jede Datenbank und Tabelle aus, die Sie replizieren möchten.
Der Konnektor setzt voraus, dass die Änderungsverfolgung für Datenbanken und Tabellen aktiviert ist, bevor die Replikation beginnt. Stellen Sie sicher, dass für jede Tabelle, die Sie replizieren möchten, die Änderungsverfolgung aktiviert ist. Sie können die Änderungsverfolgung auch für zusätzliche Tabellen aktivieren, während der Konnektor läuft.
Eine Anmeldung für die SQL Server-Instanz erstellen:
CREATE LOGIN <user_name> WITH PASSWORD = '<password>';
Diese Anmeldung wird verwendet, um Benutzer für die Datenbanken zu erstellen, die Sie replizieren möchten.
Erstellen Sie einen Benutzer für jede Datenbank, die Sie replizieren, indem Sie den folgenden SQL Server-Befehl in jeder Datenbank ausführen:
USE <source_database>; CREATE USER <user_name> FOR LOGIN <user_name>;
Gewähren Sie die SELECT- und VIEW CHANGE TRACKING-Berechtigungen für den Benutzer für jede Datenbank, die Sie replizieren:
GRANT SELECT ON <database>.<schema>.<table> TO <user_name>; GRANT VIEW CHANGE TRACKING ON <database>.<schema>.<table> TO <user_name>;
Führen Sie diese Befehle in jeder Datenbank für jede Tabelle aus, die Sie replizieren möchten. Diese Berechtigungen müssen dem Benutzer jeder Datenbank erteilt werden, die Sie in einem vorherigen Schritt erstellt haben.
(Optional) Konfigurieren Sie die SSL-Verbindung.
Wenn Sie eine SSL-Verbindung zum Verbinden des SQL-Servers verwenden, erstellen Sie das Stammzertifikat für Ihren Datenbankserver. Dies ist erforderlich, wenn Sie den Konnektor konfigurieren.
Einrichten Ihrer Snowflake-Umgebung¶
Führen Sie als Snowflake-Administratoren die folgenden Aufgaben aus:
Erstellen Sie in Snowflake eine Zieldatenbank zum Speichern der replizierten Daten:
CREATE DATABASE <destination_database>;
Snowflake Servicebenutzer erstellen:
CREATE USER <openflow_user> TYPE = SERVICE COMMENT='Service user for automated access of Openflow';
Erstellen Sie eine Snowflake-Rolle für den Konnektor, und erteilen Sie die erforderlichen Berechtigungen:
CREATE ROLE <openflow_role>; GRANT ROLE <openflow_role> TO USER <openflow_user>; GRANT USAGE ON DATABASE <destination_database> TO ROLE <openflow_role>; GRANT CREATE SCHEMA ON DATABASE <destination_database> TO ROLE <openflow_role>;
Verwenden Sie diese Rolle, um den Zugriff des Konnektors auf die Snowflake-Datenbank zu verwalten.
Um Objekte in der Zieldatenbank zu erstellen, müssen Sie die Berechtigungen USAGE und CREATE SCHEMA für die Datenbank der Rolle gewähren, die für die Zugriffsverwaltung verwendet wird.
Erstellen Sie ein Snowflake-Warehouse für den Konnektor, und erteilen Sie die erforderlichen Berechtigungen:
CREATE WAREHOUSE <openflow_warehouse> WITH WAREHOUSE_SIZE = 'XSMALL' AUTO_SUSPEND = 300 AUTO_RESUME = TRUE; GRANT USAGE, OPERATE ON WAREHOUSE <openflow_warehouse> TO ROLE <openflow_role>;
Snowflake recommends starting with a XSMALL warehouse size, then experimenting with size depending on the number of tables being replicated and the amount of data transferred. Large numbers of tables typically scale better with multi-cluster warehouses, rather than a larger warehouse size. For more information, see multi-cluster warehouses.
Richten Sie den öffentlichen und privaten Schlüssel für die Schlüsselpaar-Authentifizierung ein:
Erstellen Sie ein Paar sicherer Schlüssel (öffentlich und privat).
Speichern Sie den privaten Schlüssel für den Benutzer in einer Datei, um sie für die Konfiguration des Konnektors bereitzustellen.
Weisen Sie dem Snowflake Service-Benutzer den öffentlichen Schlüssel zu.
ALTER USER <openflow_user> SET RSA_PUBLIC_KEY = 'thekey';
Weitere Informationen dazu finden Sie unter Schlüsselpaar-Authentifizierung und Schlüsselpaar-Rotation.
Konnektor konfigurieren¶
Installieren und konfigurieren Sie als Data Engineer den Konnektor anhand der folgenden Abschnitte.
Konnektor installieren¶
Navigieren Sie zur Übersichtsseite von Openflow. Wählen Sie im Abschnitt Featured connectors die Option View more connectors aus.
Suchen Sie auf der Seite Openflow-Konnektoren den Konnektor und wählen Sie Add to runtime.
Wählen Sie im Dialogfeld Select runtime Ihre Laufzeitumgebung aus der Dropdown-Liste Available runtimes aus, und klicken Sie auf Add.
Bemerkung
Bevor Sie den Konnektor installieren, stellen Sie sicher, dass Sie in Snowflake eine Datenbank und ein Schema für den Konnektor erstellt haben, in dem die aufgenommenen Daten gespeichert werden.
Authentifizieren Sie sich bei der Bereitstellung mit den Anmeldedaten Ihres Snowflake-Kontos und wählen Sie Allow, wenn Sie dazu aufgefordert werden, damit die Laufzeitanwendung auf Ihr Snowflake-Konto zugreifen kann. Die Installation des Konnektors nimmt einige Minuten in Anspruch.
Authentifizieren Sie sich bei der Laufzeit mit den Anmeldeinformationen Ihres Snowflake-Kontos.
Das Openflow-Canvas wird mit der hinzugefügten Prozessgruppe des Konnektors angezeigt.
Konnektor konfigurieren¶
Um den Konnektor zu konfigurieren, führen Sie die folgenden Schritte aus:
Klicken Sie mit der rechten Maustaste auf die importierte Prozessgruppe und wählen Sie Parameters.
Füllen Sie die erforderlichen Parameterwerte, wie unter Ablaufparameter beschrieben.
Ablaufparameter¶
Beginnen Sie mit der Einstellung der Parameter des SQLServer-Quellparameterkontexts, und fahren Sie dann mit dem SQLServer-Zielparameterkontext fort. Nachdem Sie dies abgeschlossen haben, aktivieren Sie den Konnektor. Der Konnektor stellt die Verbindung zu SQLServer und Snowflake her und startet dann mit der Ausführung. Der Konnektor repliziert jedoch erst dann Daten, wenn die zu replizierenden Tabellen explizit zu seiner Konfiguration hinzugefügt wurden.
Um bestimmte Tabellen für die Replikation zu konfigurieren, bearbeiten Sie die Aufnahmeparameter für SQLServer. Nachdem Sie die Änderungen am Kontext der Aufnahmeparameter für SQLServer vorgenommen haben, wird die Konfiguration vom Konnektor übernommen und der Replikationslebenszyklus für jede Tabelle gestartet.
Quellsystemparameter für SQLServer¶
Parameter |
Beschreibung |
|---|---|
SQL Server Connection URL |
Die vollständige JDBC URL zur Quelldatenbank. Beispiel:
|
SQL Server JDBC Driver |
Aktivieren Sie das Reference asset-Kontrollkästchen, um den SQL Server JDBC-Treiber hochzuladen. |
SQL Server Username |
Der Benutzername für den Konnektor. |
SQL Server Password |
Das Kennwort für den Konnektor. |
Zielsystemparameter für SQLServer¶
Parameter |
Beschreibung |
Erforderlich |
|---|---|---|
Destination Database |
Die Datenbank, in der Daten persistent gespeichert werden. Sie muss bereits in Snowflake vorhanden sein. Beim Namen wird zwischen Groß- und Kleinschreibung unterschieden. Bei Bezeichnern ohne Anführungszeichen geben Sie den Namen in Großbuchstaben an. |
Ja |
Snowflake Authentication Strategy |
Bei Verwendung von:
|
Ja |
Snowflake Account Identifier |
Bei Verwendung von:
|
Ja |
Snowflake-Verbindungsstrategie |
Bei Verwendung von KEY_PAIR geben Sie die Strategie für die Verbindung zu Snowflake an:
|
Nur erforderlich für BYOC mit KEY_PAIR, andernfalls wird dies ignoriert. |
Auflösung des Snowflake-Objektbezeichners |
Gibt an, wie Quellobjektbezeichner wie Schemas, Tabellen und Spaltennamen in Snowflake gespeichert und abgefragt werden. Diese Einstellung bestimmt, ob Sie in SQL-Abfragen doppelte Anführungszeichen verwenden müssen. Option 1: Standard ist die Beachtung der Groß- und Kleinschreibung (empfohlen).
Bemerkung Snowflake empfiehlt die Verwendung dieser Option, wenn Datenbankobjekte keine Namen mit gemischter Groß-/Kleinschreibung haben. Wichtig Ändern Sie diese Einstellung nicht, nachdem die Datenaufnahme des Konnektors begonnen hat. Das Ändern dieser Einstellung nach Beginn der Datenaufnahme führt zum Abbruch der bestehenden Datenaufnahme. Wenn Sie diese Einstellung ändern müssen, erstellen Sie eine neue Konnektorinstanz. Option 2: Groß-/Kleinschreibung wird berücksichtigt.
Bemerkung Snowflake empfiehlt die Verwendung dieser Option, wenn Sie die Groß-/Kleinschreibung der Quelle aus Gründen der Kompatibilität beibehalten müssen. Wenn beispielsweise die Quelldatenbank Tabellennamen enthält, die sich nur in der Groß-/Kleinschreibung unterscheiden, wie z. B. |
Ja |
Snowflake Private Key |
Bei Verwendung von:
|
Nein |
Snowflake Private Key File |
Bei Verwendung von:
|
Nein |
Snowflake Private Key Password |
Bei Verwendung von:
|
Nein |
Snowflake Role |
Bei Verwendung von:
|
Ja |
Snowflake-Benutzername |
Bei Verwendung von:
|
Ja |
Snowflake Warehouse |
Snowflake Warehouse, das für die Ausführung von Abfragen verwendet wird. |
Ja |
Aufnahmeparameter für SQLServer¶
Parameter |
Beschreibung |
|---|---|
Included Table Names |
Eine durch Kommas getrennte Liste der Quelltabellenpfade, einschließlich ihrer Datenbanken und Schemas, zum Beispiel:
|
Included Table Regex |
Ein regulärer Ausdruck zum Abgleich mit Tabellenpfaden, einschließlich Datenbank- und Schemanamen. Jeder Pfad, der mit dem Ausdruck übereinstimmt, wird repliziert, und neue Tabellen, die dem Muster entsprechen und später erstellt werden, werden ebenfalls automatisch aufgenommen. Beispiel:
|
Filter JSON |
Eine JSON-Datei mit einer Liste vollqualifizierter Tabellennamen und einem Regex-Muster für Spaltennamen, die in die Replikation einbezogen werden sollen. Das folgende Beispiel enthält alle Spalten, die mit
|
Merge Task Schedule CRON |
CRON-Ausdruck, der Zeiträume definiert, in denen Zusammenführungsoperationen vom Journal zur Zieltabelle ausgelöst werden. Setzen Sie ihn auf Beispiel:
Weitere Informationen und Beispiele finden Sie in der Anleitung zu Cron-Triggern in der Quartz-Dokumentation |
Entfernen und erneutes Hinzufügen einer Tabelle zur Replikation¶
Um eine Tabelle aus der Replikation zu entfernen, müssen Sie sie aus den Parametern Included Table Names oder Included Table Regex im Replikationsparameterkontext entfernen.
Um die Tabelle später wieder zur Replikation hinzuzufügen, löschen Sie zunächst die entsprechende Zieltabelle in Snowflake. Fügen Sie die Tabelle anschließend wieder zu den Parametern Included Table Names oder Included Table Regex hinzu. Dadurch wird sichergestellt, dass der Replikationsprozess für die Tabelle neu beginnt.
Diese Vorgehensweise kann auch zur Wiederherstellung nach einer fehlgeschlagenen Tabellenreplikation verwendet werden.
Replizieren einer Teilmenge von Spalten in einer Tabelle¶
Der Konnektor filtert die pro Tabelle replizierten Daten in einer Teilmenge der konfigurierten Spalten.
Um Filter auf Spalten anzuwenden, ändern Sie die Eigenschaft „Column Filter“ im Replikationsparameterkontext und fügen Sie ein Array mit Konfigurationen hinzu, wobei Sie für jede Tabelle, auf die Sie einen Filter anwenden möchten, einen Eintrag hinzufügen.
Schließen Sie Spalten nach Name oder Muster ein- und aus. Sie können eine Bedingung pro Tabelle anwenden oder mehrere Bedingungen kombinieren, wobei Ausschlüsse immer Vorrang vor Einschlüssen haben.
Das folgende Beispiel zeigt die Felder, die verfügbar sind. Die Felder schema und table sind Pflichtfelder. Eine oder mehrere der Optionen included, excluded, includedPattern, excludedPattern sind erforderlich.
[
{
"schema": "<source table schema>",
"table" : "<source table name>",
"included": ["<column name>", "<column name>"],
"excluded": ["<column name>", "<column name>"],
"includedPattern": "<regular expression>",
"excludedPattern": "<regular expression>",
}
]
Verfolgen von Datenänderungen in Tabellen¶
Der Konnektor repliziert den aktuellen Status der Daten aus den Quelltabellen sowie jeden Status jeder Zeile aus jedem Änderungssatz. Diese Daten werden in Journaltabellen gespeichert, die im gleichen Schema wie die Zieltabelle erstellt wurden.
Die Journaltabellennamen haben folgendes Format: <source table name>_JOURNAL_<timestamp>_<schema generation> where <timestamp> is the value of epoch seconds when the source table was added to replication, and <schema generation> ist eine ganze Zahl, die mit jeder Schemaänderung in der Quelltabelle erhöht wird. Infolgedessen haben Quelltabellen, die Schemaänderungen unterliegen, mehrere Journaltabellen.
Wenn Sie eine Tabelle aus der Replikation entfernen und anschließend wieder hinzufügen, dann <timestamp> value changes, and <schema generation> starts again from 1.
Wichtig
Snowflake empfiehlt, die Struktur von Journaltabellen in keiner Weise zu verändern. Sie werden vom Konnektor verwendet, um die Zieltabelle im Rahmen der Replikation zu aktualisieren.
Der Konnektor löscht Journaltabellen nie, sondern verwendet das neueste Journal für jede replizierte Quelltabelle und liest dabei nur Nur-Anfügen-Streams über Journale. Um den Speicher wieder freizugeben, können Sie Folgendes tun:
Sie können alle Journaltabellen jederzeit kürzen.
Löschen Sie die Journaltabellen, die sich auf Quelltabellen beziehen, die aus der Replikation entfernt wurden.
Löschen Sie alle Journaltabellen bis auf die neueste Generation aktiv replizierter Tabellen.
Wenn Ihr Konnektor beispielsweise so eingestellt ist, dass er die Quelltabelle orders aktiv repliziert, und Sie zuvor die Tabelle customers aus der Replikation entfernt haben, haben Sie möglicherweise die folgenden Journaltabellen. In diesem Fall können Sie alle außer orders_5678_2 löschen.
customers_1234_1
customers_1234_2
orders_5678_1
orders_5678_2
Planung von Zusammenführungsaufgaben konfigurieren¶
Der Konnektor verwendet ein Warehouse, um Daten aus der Änderungsdatenerfassung (CDC) in Zieltabellen zusammenzuführen. Diese Operation wird durch den Prozessor MergeSnowflakeJournalTable ausgelöst. Wenn es keine neuen Änderungen gibt oder wenn keine neuen FlowFiles in der MergeSnowflakeJournalTable-Warteschlange warten, wird keine Zusammenführung ausgelöst und das Warehouse wird automatisch ausgesetzt.
Verwenden Sie den CRON-Ausdruck im CRON-Parameter „Merge task Schedule“, um die Warehouse-Kosten zu begrenzen und die Zusammenführungen auf die geplanten Zeiten zu beschränken. Er drosselt die Flow-Dateien, die beim MergeSnowflakeJournalTable-Prozessor eingehen, und Zusammenführungen werden nur in einem bestimmten Zeitraum ausgelöst. Weitere Informationen zur Zeitplanung finden Sie unter Zeitplanungsstrategie.
Führen Sie den Ablauf aus¶
Klicken Sie mit der rechten Maustaste auf die Ebene, und wählen Sie Enable all Controller Services.
Klicken Sie mit der rechten Maustaste auf die importierte Prozessgruppe und wählen Sie Start. Der Konnektor startet die Datenaufnahme.