Einrichten von Openflow Connector for SQL Server¶

Bemerkung

Dieser Connector unterliegt den `Nutzungsbedingungen für Snowflake Connector<https://www.snowflake.com/legal/snowflake-connector-terms/>`_.

Unter diesem Thema wird beschrieben, wie Sie Openflow Connector for SQL Server einrichten.

Weitere Informationen zum inkrementellen Ladeprozess finden Sie unter Inkrementelle Replikation.

Voraussetzungen¶

Stellen Sie vor dem Einrichten des Konnektors sicher, dass Sie die folgenden Voraussetzungen erfüllt haben:

Stellen Sie sicher, dass Sie Allgemeine Informationen zu Openflow Connector for SQL Server gelesen haben.
Stellen Sie sicher, dass Sie Unterstützte SQL-Server-Versionen gelesen haben.
Vergewissern Sie sich, dass Sie Ihre Laufzeitbereitstellung eingerichtet haben. Weitere Informationen dazu finden Sie unter folgenden Themen:
- Openflow einrichten – BYOC
- Openflow einrichten – Snowflake-Bereitstellungen.
Stellen Sie bei der Verwendung von Openflow - Snowflake Deployments sicher, dass Sie Konfigurieren der erforderlichen Domänen gelesen haben und Zugriff auf die erforderlichen Domänen für den SQL Server-Konnektor gewährt haben.

Ihre SQL Server-Instanz einrichten¶

Bevor Sie den Konnektor einrichten, führen Sie die folgenden Aufgaben in Ihrer SQL Server-Umgebung durch:

Bemerkung

Sie müssen diese Aufgaben als Datenbankadministrator ausführen.

Aktivieren Sie die Änderungsverfolgung für die Datenbanken und Tabellen, für die Sie die Replikation planen, wie im folgenden Beispiel für SQL Server gezeigt:
```
ALTER DATABASE <database>
  SET CHANGE_TRACKING = ON
  (CHANGE_RETENTION = 2 DAYS, AUTO_CLEANUP = ON);

ALTER TABLE <schema>.<table>
  ENABLE CHANGE_TRACKING;
```
Bemerkung

Führen Sie diese Befehle für jede Datenbank und Tabelle aus, die Sie replizieren möchten.

Der Konnektor setzt voraus, dass die Änderungsverfolgung für Datenbanken und Tabellen aktiviert ist, bevor die Replikation beginnt. Stellen Sie sicher, dass für jede Tabelle, die Sie replizieren möchten, die Änderungsverfolgung aktiviert ist. Sie können die Änderungsverfolgung auch für zusätzliche Tabellen aktivieren, während der Konnektor läuft.
Eine Anmeldung für die SQL Server-Instanz erstellen:
```
CREATE LOGIN <user_name> WITH PASSWORD = '<password>';
```
Diese Anmeldung wird verwendet, um Benutzer für die Datenbanken zu erstellen, die Sie replizieren möchten.
Erstellen Sie einen Benutzer für jede Datenbank, die Sie replizieren, indem Sie den folgenden SQL Server-Befehl in jeder Datenbank ausführen:
```
USE <source_database>;
CREATE USER <user_name> FOR LOGIN <user_name>;
```
Gewähren Sie die SELECT- und VIEW CHANGE TRACKING-Berechtigungen für den Benutzer für jede Datenbank, die Sie replizieren:
```
GRANT SELECT ON <database>.<schema>.<table> TO <user_name>;
GRANT VIEW CHANGE TRACKING ON <database>.<schema>.<table> TO <user_name>;
```
Führen Sie diese Befehle in jeder Datenbank für jede Tabelle aus, die Sie replizieren möchten. Diese Berechtigungen müssen dem Benutzer jeder Datenbank erteilt werden, die Sie in einem vorherigen Schritt erstellt haben.
(Optional) Erteilen Sie die VIEW DEFINITION-Berechtigung für die benutzerdefinierten Datentypen (UDDT).

Wenn Ihre Tabellen Spalten enthalten, die benutzerdefinierte Datentypen (UDDT) verwenden, und der UDDT einem anderen Benutzenden als dem Konnektor-Benutzenden gehört, müssen Sie die VIEW DEFINITION-Berechtigung für den Konnektor-Benutzenden erteilen, wie im Folgenden SQL Server-Beispiel gezeigt:
```
GRANT VIEW DEFINITION TO <user_name>;
```
Ohne diese Berechtigung werden Spalten, die UDDT verwenden, stillschweigend von der Replikation ausgeschlossen.
(Optional) Konfigurieren Sie die SSL-Verbindung.

Wenn Sie eine SSL-Verbindung zum Verbinden des SQL-Servers verwenden, erstellen Sie das Stammzertifikat für Ihren Datenbankserver. Dies ist erforderlich, wenn Sie den Konnektor konfigurieren.

Einrichten Ihrer Snowflake-Umgebung¶

Führen Sie als Snowflake-Administratoren die folgenden Aufgaben aus:

Erstellen Sie in Snowflake eine Zieldatenbank zum Speichern der replizierten Daten:
```
CREATE DATABASE <destination_database>;
```

Snowflake Servicebenutzer erstellen:

CREATE USER <openflow_user>
  TYPE = SERVICE
  COMMENT='Service user for automated access of Openflow';

Erstellen Sie eine Snowflake-Rolle für den Konnektor, und erteilen Sie die erforderlichen Berechtigungen:
```
CREATE ROLE <openflow_role>;
GRANT ROLE <openflow_role> TO USER <openflow_user>;
GRANT USAGE ON DATABASE <destination_database> TO ROLE <openflow_role>;
GRANT CREATE SCHEMA ON DATABASE <destination_database> TO ROLE <openflow_role>;
```
Verwenden Sie diese Rolle, um den Zugriff des Konnektors auf die Snowflake-Datenbank zu verwalten.

Um Objekte in der Zieldatenbank zu erstellen, müssen Sie die Berechtigungen USAGE und CREATE SCHEMA für die Datenbank der Rolle gewähren, die für die Zugriffsverwaltung verwendet wird.
Erstellen Sie ein Snowflake-Warehouse für den Konnektor, und erteilen Sie die erforderlichen Berechtigungen:
```
CREATE WAREHOUSE <openflow_warehouse> WITH
  WAREHOUSE_SIZE = 'XSMALL'
  AUTO_SUSPEND = 300
  AUTO_RESUME = TRUE;
GRANT USAGE, OPERATE ON WAREHOUSE <openflow_warehouse> TO ROLE <openflow_role>;
```
Snowflake empfiehlt, mit der Warehouse-Größe XSMALL zu beginnen und dann abhängig von der Anzahl der zu replizierenden Tabellen und der übertragenen Datenmenge mit der Größe zu experimentieren. Eine große Anzahl von Tabellen skaliert normalerweise besser mit Multi-Cluster-Warehouses und nicht anhand der Warehouse-Größe. Weitere Informationen dazu finden Sie unter Multi-Cluster-Warehouses.
Richten Sie den öffentlichen und privaten Schlüssel für die Schlüsselpaar-Authentifizierung ein:
1. Erstellen Sie ein Paar sicherer Schlüssel (öffentlich und privat).
2. Speichern Sie den privaten Schlüssel für den Benutzer in einer Datei, um sie für die Konfiguration des Konnektors bereitzustellen.
3. Weisen Sie dem Snowflake Service-Benutzer den öffentlichen Schlüssel zu.
  ALTER USER <openflow_user> SET RSA_PUBLIC_KEY = 'thekey';
  Weitere Informationen dazu finden Sie unter Schlüsselpaar-Authentifizierung und Schlüsselpaar-Rotation.

Konnektor installieren¶

Um den Konnektor zu installieren, gehen Sie als Data Engineer wie folgt vor:

Navigieren Sie zur Übersichtsseite von Openflow. Wählen Sie im Abschnitt Featured connectors die Option View more connectors aus.
Suchen Sie auf der Seite Openflow-Konnektoren den Konnektor und wählen Sie Add to runtime.
Wählen Sie im Dialogfeld Select runtime Ihre Laufzeitumgebung aus der Dropdown-Liste Available runtimes aus, und klicken Sie auf Add.

Bemerkung

Bevor Sie den Konnektor installieren, stellen Sie sicher, dass Sie in Snowflake eine Datenbank und ein Schema für den Konnektor erstellt haben, in dem die aufgenommenen Daten gespeichert werden.
Authentifizieren Sie sich bei der Bereitstellung mit den Anmeldedaten Ihres Snowflake-Kontos und wählen Sie Allow, wenn Sie dazu aufgefordert werden, damit die Laufzeitanwendung auf Ihr Snowflake-Konto zugreifen kann. Die Installation des Konnektors nimmt einige Minuten in Anspruch.
Authentifizieren Sie sich bei der Laufzeit mit den Anmeldeinformationen Ihres Snowflake-Kontos.

Das Openflow-Canvas wird mit der hinzugefügten Prozessgruppe des Konnektors angezeigt.

Konnektor konfigurieren¶

Um den Konnektor zu konfigurieren, gehen Sie als Data Engineer wie folgt vor:

Klicken Sie mit der rechten Maustaste auf die importierte Prozessgruppe und wählen Sie Parameters.
Füllen Sie die erforderlichen Parameterwerte aus.

Weitere Informationen zu den erforderlichen Parameterwerten finden Sie in den folgenden Abschnitten:
- SQLServer-Quellparameter: Wird verwendet, um eine Verbindung mit SQL Server herzustellen.
- SQLServer-Zielparameter: Wird verwendet, um eine Verbindung mit Snowflake herzustellen.
- SQLServer-Aufnahmeparameter: Wird verwendet, um die zu replizierenden Tabellen anzugeben.

Beginnen Sie mit der Einstellung der Parameter des SQLServer-Quellparameterkontexts, und fahren Sie dann mit dem SQLServer-Zielparameterkontext fort. Nachdem Sie dies abgeschlossen haben, aktivieren Sie den Konnektor. Der Konnektor stellt die Verbindung zu SQLServer und Snowflake her und startet dann mit der Ausführung. Der Konnektor repliziert jedoch erst dann Daten, wenn die zu replizierenden Tabellen explizit zu seiner Konfiguration hinzugefügt wurden.

Um bestimmte Tabellen für die Replikation zu konfigurieren, bearbeiten Sie die Aufnahmeparameter für SQLServer. Nachdem Sie die Änderungen am Kontext der Aufnahmeparameter für SQLServer vorgenommen haben, wird die Konfiguration vom Konnektor übernommen und der Replikationslebenszyklus für jede Tabelle gestartet.

SQLServer-Quellparameter¶


Parameter	Beschreibung
SQLServer Verbindungs-URL	Die vollständige JDBC URL zur Quelldatenbank. Beispiel: `jdbc:sqlserver://example.com:1433;encrypt=false;`
SQLServer-JDBC-Treiber	Aktivieren Sie das Reference asset-Kontrollkästchen, um den SQL Server JDBC-Treiber hochzuladen.
SQLServer Benutzername	Der Benutzername für den Konnektor.
SQLServer Kennwort	Das Kennwort für den Konnektor.

SQLServer-Zielparameter¶


Parameter	Beschreibung	Erforderlich
Destination Database	Die Datenbank, in der Daten persistent gespeichert werden. Sie muss bereits in Snowflake vorhanden sein. Beim Namen wird zwischen Groß- und Kleinschreibung unterschieden. Bei Bezeichnern ohne Anführungszeichen geben Sie den Namen in Großbuchstaben an.	Ja
Snowflake Authentication Strategy	Bei Verwendung von: Snowflake Openflow-Bereitstellung oder BYOC: Verwenden Sie SNOWFLAKE_MANAGED_TOKEN. Dieses Token wird automatisch von Snowflake verwaltet. Für BYOC-Bereitstellungen müssen zuvor Laufzeitrollen konfiguriert sein, um SNOWFLAKE_MANAGED_TOKEN zu verwenden. BYOC: Alternativ kann BYOC KEY_PAIR als Wert für die Authentifizierungsstrategie verwenden.	Ja
Snowflake Account Identifier	Bei Verwendung von: Strategie für die Authentifizierung mit Sitzungstoken: Muss leer sein. KEY_PAIR: Snowflake-Kontoname im Format [Organisationsname]-[Kontoname], wobei die Daten persistent gespeichert werden.	Ja
Snowflake-Verbindungsstrategie	Bei Verwendung von KEY_PAIR geben Sie die Strategie für die Verbindung zu Snowflake an: STANDARD (Standard): Verbindung zu Snowflake-Services über standardmäßiges öffentliches Routing. PRIVATE_CONNECTIVITY: Stellen Sie eine Verbindung über private Adressen her, die mit der unterstützenden Cloudplattform verbunden sind, wie z. B. AWS PrivateLink.	Nur erforderlich für BYOC mit KEY_PAIR, andernfalls wird dies ignoriert.
Auflösung des Snowflake-Objektbezeichners	Gibt an, wie Quellobjektbezeichner wie Schemas, Tabellen und Spaltennamen in Snowflake gespeichert und abgefragt werden. Diese Einstellung bestimmt, ob Sie in SQL-Abfragen doppelte Anführungszeichen verwenden müssen. Option 1: Standard ist die Beachtung der Groß- und Kleinschreibung (empfohlen). Transformation: Alle Bezeichner werden in Großbuchstaben umgewandelt. Beispiel: `My_Table` wird zu `MY_TABLE`. Abfragen: SQL-Abfragen unterscheiden nicht zwischen Groß- und Kleinschreibung und benötigen keine doppelten SQL-Anführungszeichen. Beispiel: `SELECT * FROM my_table;` gibt die gleichen Ergebnisse zurück wie `SELECT * FROM MY_TABLE;`. Bemerkung Snowflake empfiehlt die Verwendung dieser Option, wenn Datenbankobjekte keine Namen mit gemischter Groß-/Kleinschreibung haben. Wichtig Ändern Sie diese Einstellung nicht, nachdem die Datenaufnahme des Konnektors begonnen hat. Das Ändern dieser Einstellung nach Beginn der Datenaufnahme führt zum Abbruch der bestehenden Datenaufnahme. Wenn Sie diese Einstellung ändern müssen, erstellen Sie eine neue Konnektorinstanz. Option 2: Groß-/Kleinschreibung wird berücksichtigt. Transformation: Die Groß-/Kleinschreibung bleibt erhalten. Beispiel: `My_Table` bleibt `My_Table`. Abfragen: SQL-Abfragen müssen doppelte Anführungszeichen verwenden, um der genauen Schreibweise von Datenbankobjekten zu entsprechen. Beispiel: `SELECT * FROM "My_Table";`. Bemerkung Snowflake empfiehlt die Verwendung dieser Option, wenn Sie die Groß-/Kleinschreibung der Quelle aus Gründen der Kompatibilität beibehalten müssen. Wenn beispielsweise die Quelldatenbank Tabellennamen enthält, die sich nur in der Groß-/Kleinschreibung unterscheiden, wie z. B. `MY_TABLE` und `my_table`, würde dies bei Vergleichen ohne Berücksichtigung der Groß-/Kleinschreibung zu Namenskonflikten führen.	Ja
Snowflake Private Key	Bei Verwendung von: Strategie für die Authentifizierung mit Sitzungstoken: Muss leer sein. KEY_PAIR: Muss der RSA private Schlüssel sein, der für die Authentifizierung verwendet wird. Der RSA-Schlüssel muss entsprechend den PKCS8-Standards formatiert sein und standardmäßige PEM-Header und Footer haben. Beachten Sie, dass entweder eine private Snowflake-Schlüsseldatei oder ein privater Snowflake-Schlüssel definiert werden muss.	Nein
Snowflake Private Key File	Bei Verwendung von: Authentifizierungsstrategie für Sitzungstoken: Die Datei des privaten Schlüssels muss leer sein. KEY_PAIR: Laden Sie die Datei hoch, die den RSA Private Key für die Authentifizierung bei Snowflake enthält, formatiert nach PKCS8-Standards und mit Standard-PEM-Header und -Footer. Die Header-Zeile beginnt mit `-----BEGIN PRIVATE`. Aktivieren Sie das Kontrollkästchen Reference asset, um die Private Key-Datei hochzuladen.	Nein
Snowflake Private Key Password	Bei Verwendung von: Strategie für die Authentifizierung mit Sitzungstoken: Muss leer sein. KEY_PAIR: Geben Sie das Kennwort an, das mit der privaten Snowflake-Schlüsseldatei verbunden ist.	Nein
Snowflake Role	Bei Verwendung von: Strategie für die Authentifizierung mit Sitzungstoken: Verwenden Sie die Snowflake-Rolle, die der Laufzeitrolle oder der untergeordneten Rolle zugewiesen ist, die dieser Snowflake-Rolle zugewiesen wurde. Sie finden Ihre Snowflake-Laufzeitrolle in der Openflow-UI, indem Sie die Schaltfläche More Options [⋮] für Ihre Laufzeitumgebung erweitern und Set Snowflake role auswählen. KEY_PAIR Authentifizierungsstrategie: Verwenden Sie eine gültige Rolle, die für Ihren Dienstbenutzer konfiguriert ist.	Ja
Snowflake-Benutzername	Bei Verwendung von: Strategie für die Authentifizierung mit Sitzungstoken: Muss leer sein. KEY_PAIR: Geben Sie den Benutzernamen an, der für die Verbindung mit der Snowflake-Instanz verwendet wird.	Ja
Oversized Value Strategy	Determines how the connector handles values that exceed its internal size limits (16 MB) during replication. Possible values are: Fail Table (default): The table is marked as permanently failed, and replication stops for that table. Set Null: The value is replaced with `NULL` in the destination table. Use this to prevent table failures when it is acceptable to lose data in tables beyond the oversized value.	Nein
Snowflake Warehouse	Snowflake Warehouse, das für die Ausführung von Abfragen verwendet wird.	Ja

SQLServer-Aufnahmeparameter¶


Parameter	Beschreibung
Included Table Names	Eine durch Kommas getrennte Liste der Quelltabellenpfade, einschließlich ihrer Datenbanken und Schemas, zum Beispiel: `database_1.public.table_1, database_2.schema_2.table_2`
Included Table Regex	Ein regulärer Ausdruck zum Abgleich mit Tabellenpfaden, einschließlich Datenbank- und Schemanamen. Jeder Pfad, der mit dem Ausdruck übereinstimmt, wird repliziert, und neue Tabellen, die dem Muster entsprechen und später erstellt werden, werden ebenfalls automatisch aufgenommen. Beispiel: `database_name\.public\.auto_.*`
Spaltenfilter JSON	Optional. Ein JSON-Array von Filterobjekten, die angeben, welche Spalten pro Tabelle ein- oder ausgeschlossen werden sollen. Weitere Details und Beispiele zur Syntax finden Sie unter Replizieren einer Teilmenge von Spalten in einer Tabelle.
Merge Task Schedule CRON	CRON-Ausdruck, der Zeiträume definiert, in denen Zusammenführungsoperationen vom Journal zur Zieltabelle ausgelöst werden. Setzen Sie ihn auf `* * * * * ?`, wenn Sie eine kontinuierliche Zusammenführung oder keinen Zeitplan zur Begrenzung der Warehouse-Laufzeit wünschen. Beispiel: Die Zeichenfolge `* 0 * * * ?` gibt an, dass Sie Zusammenführungen zu jeder vollen Stunde für eine Minute planen möchten. Die Zeichenfolge `* 20 14 ? * MON-FRI` gibt an, dass Sie Zusammenführungen um 2:20 PM jeden Montag bis Freitag planen möchten. Weitere Informationen und Beispiele finden Sie in der Anleitung zu Cron-Triggern in der Quartz-Dokumentation

Replizieren von Tabellen von einem Replikatserver von SQL Server¶

Der Konnektor kann Daten von einem primären Server oder von einem Abonnentenserver unter Verwendung der transaktionalen Replikation erfassen. Bevor Sie den Konnektor für die Verbindung mit einem SQL Server-Replikat konfigurieren, stellen Sie sicher, dass die Replikation zwischen Primär- und Replikatknoten korrekt funktioniert. Eine Anleitung zum Einrichten der Transaktionsreplikation finden Sie im ` Tutorial: Transaktionsreplikation konfigurieren <https://learn.microsoft.com/en-us/sql/relational-databases/replication/tutorial-replicating-data-between-continuously-connected-servers>`_. Wenn Sie Probleme mit fehlenden Daten im Konnektor untersuchen, stellen Sie zunächst sicher, dass fehlende Zeilen und Änderungsverfolgungsereignisse auf dem vom Konnektor verwendeten Replikatserver vorhanden sind.

Bemerkung

Wenn Sie einen Replikatserver verwenden, unterscheidet sich das Setup des Konnektors von der Standardkonfiguration des primären Servers. Der Verbindungsbenutzende und die Änderungsverfolgung müssen nicht auf dem primären Server konfiguriert werden. Stellen Sie stattdessen sicher, dass der Verbindungsbenutzende auf dem Replikatserver verfügbar ist und Zugriff auf die dortigen Daten und Änderungsverfolgungstabellen hat.

Um den Konnektor so zu konfigurieren, dass er von einem Abonnentenserver anstelle des Herausgebers liest, geben Sie die Abonnentenserver-URL im Parameter SQLServer Connection URL an.

Warnung

Ändern Sie den Datenbankserver nicht, nachdem die Replikation gestartet wurde. Jede Datenbank behält ihren eigenen Änderungsverfolgungsstatus unabhängig bei, sodass der Wechsel zu einem anderen Server dazu führen würde, dass der Konnektor den Überblick darüber verliert, welche Änderungen bereits verarbeitet wurden, und dies zu Datenverlusten führen kann.

Replikation der Tabellen neu starten¶

Eine Tabelle in FAILED-Status – z. B. aufgrund eines fehlenden Primärschlüssels oder einer nicht unterstützten Schemaänderung – wird nicht automatisch neu gestartet. Wenn eine Tabelle in einen FAILED-Status übergeht oder Sie die Replikation von Grund auf neu starten müssen, gehen Sie wie folgt vor, um die Tabelle zu entfernen und zur Replikation erneut hinzuzufügen.

Bemerkung

Wenn der Fehler durch ein Problem in der Quelltabelle verursacht wurde, z. B. durch einen fehlenden Primärschlüssel, beheben Sie dieses Problem in der Quelldatenbank, bevor Sie fortfahren.

Die Tabelle aus den Ablaufparametern entfernen: Entfernen Sie im Kontext der Datenaufnahmeparameter entweder die Tabelle aus Included Table Names, oder ändern Sie Included Table Regex so, dass die Tabelle nicht mehr übereinstimmt.
Überprüfen, ob die Tabelle entfernt wurde:
1. Klicken Sie in der Openflow-Laufzeitoberfläche mit der rechten Maustaste auf eine Prozessorgruppe, und wählen Sie Controller Services.
2. Suchen Sie in der Tabelle mit den Controllerdiensten die Zeile Table State Store, klicken Sie auf die drei vertikalen Punkte rechts von der Zeile, und wählen Sie dann View State aus.
Wichtig

Sie müssen warten, bis der Status der Tabelle vollständig aus dieser Liste entfernt wurde, bevor Sie fortfahren können. Fahren Sie nicht fort, bis diese Konfigurationsänderung abgeschlossen ist.
Ziel bereinigen: Sobald der Status der Tabelle als „vollständig entfernt“ angezeigt wird, DROP Sie die Zieltabelle manuell in Snowflake. Beachten Sie, dass der Konnektor während der Snapshot-Phase keine vorhandene Zieltabelle überschreibt. Wenn die Tabelle noch existiert, schlägt die Replikation erneut fehl. Optional können die Journaltabelle und der Stream auch entfernt werden, wenn sie nicht mehr benötigt werden.
Fügen Sie die Tabelle erneut hinzu: Aktualisieren Sie den Parameter Included Table Names oder Included Table Regex so, dass die Tabelle wieder eingeschlossen wird.
Neustart überprüfen: Überprüfen Sie den Table State Store unter Verwendung der zuvor angegebenen Anweisungen. Der Status der Tabelle sollte mit dem Status NEW angezeigt werden, dann in SNAPSHOT_REPLICATION übergehen und schließlich in INCREMENTAL_REPLICATION.

Replizieren einer Teilmenge von Spalten in einer Tabelle¶

Der Konnektor kann die pro Tabelle replizierten Daten auf eine Teilmenge der konfigurierten Spalten filtern. Primärschlüsselspalten sind unabhängig von Ausschlüssen immer enthalten.

Um Spaltenfilter anzuwenden, legen Sie einen Column Filter JSON-Parameter im Kontext der Aufnahmeparameter auf ein JSON-Array von Filterobjekten fest, einen pro Tabelle, die Sie filtern möchten.

Spalten können nach Namen hinzugefügt oder ausgeschlossen werden oder durch reguläre Ausdrucksmuster. Sie können eine Bedingung pro Tabelle anwenden oder mehrere Bedingungen kombinieren, wobei Ausschlüsse immer Vorrang vor Einschlüssen haben.

Syntax¶

Jedes Objekt im Array identifiziert eine Tabelle und gibt an, welche Spalten ein- oder ausgeschlossen werden sollen. Da dieser Konnektor dreiteilige, vollqualifizierte Namen verwendet (Datenbank, Schema und Tabelle), kann jedes Objekt neben den Schemafeldern und den Tabellenfeldern noch ein Feld database oder``databasePattern`` enthalten.

[
    {
        "database": "<database>" | "databasePattern": "<regex>",
        "schema": "<schema>" | "schemaPattern": "<regex>",
        "table": "<table>" | "tablePattern": "<regex>",
        "included": ["<column>", "<column>"],
        "excluded": ["<column>", "<column>"],
        "includedPattern": "<regex>",
        "excludedPattern": "<regex>"
    }
]

Es gelten die folgenden Regeln:

Verwenden Sie database, schema und table für den exakten Namensabgleich oder databasePattern, schemaPattern und tablePattern für den Regex-Abgleich. Sie können nicht sowohl ein Feld als auch seine Mustervariante im gleichen Objekt verwenden (z. B.``schema`` und schemaPattern können nicht beide angezeigt werden).
Es muss mindestens included, excluded, includedPattern oder excludedPattern angegeben werden.
Wenn sowohl enthaltene als auch ausgeschlossene Filter angegeben sind, haben Ausschlüsse Vorrang.
Wenn mehrere Filter derselben Tabelle entsprechen, wird der letzte übereinstimmende Filter verwendet, wobei exakte Übereinstimmungen Vorrang vor musterbasierten Filtern haben.
Der Wert kann ein Array von Objekten sein, um verschiedene Filter auf verschiedene Tabellen anzuwenden.

Beispiele¶

Einschließen bestimmter Spalten nach Name:

[
    {
        "database": "my_db",
        "schema": "dbo",
        "table": "orders",
        "included": ["account_id", "status", "created_at"]
    }
]

Ausschließen bestimmter Spalten nach Name:

[
    {
        "database": "my_db",
        "schema": "dbo",
        "table": "orders",
        "excluded": ["internal_note", "debug_flag"]
    }
]

Kombinieren eines Einschlussmusters mit einem bestimmten Ausschluss (z. B. alle E-Mail-Spalten außer admin_email einschließen):

[
    {
        "database": "my_db",
        "schema": "dbo",
        "table": "contacts",
        "includedPattern": ".*_email",
        "excluded": ["admin_email"]
    }
]

Mischen eines Datenbankmusters mit einem exakten Schema und Tabellennamen, um einen Filter auf alle Datenbanken anzuwenden:

[
    {
        "databasePattern": "prod_.*",
        "schema": "dbo",
        "table": "customers",
        "excluded": ["internal_note"]
    }
]

Übergeben mehrerer Filterobjekte, um unterschiedliche Regeln auf verschiedene Tabellen anzuwenden:

[
    {"database": "my_db", "schema": "dbo", "table": "orders", "included": ["account_id", "status"]},
    {"database": "my_db", "schema": "dbo", "table": "customers", "excludedPattern": ".*_internal"}
]

Replizieren einer partitionierten Tabelle¶

Der Konnektor unterstützt die Replikation von partitionierten Tabellen. Ein partitionierte SQL Server-Tabelle wird als einzige Zieltabelle nach Snowflake repliziert, die Daten aus allen Partitionen enthält.

Um eine partitionierte Tabelle zu replizieren, müssen Sie sicherstellen, dass die Änderungsverfolgung für die partitionierte Tabelle aktiviert ist, wie unter Ihre SQL Server-Instanz einrichten beschrieben.

Verfolgen von Datenänderungen in Tabellen¶

Der Konnektor repliziert den aktuellen Status der Daten aus den Quelltabellen sowie die erkannten Änderungen aus jedem Abfrageintervall. Diese Daten werden in Journaltabellen gespeichert, die im gleichen Schema wie die Zieltabelle erstellt wurden.

Bemerkung

Weil der Konnektor die SQL Server-Änderungsverfolgung verwendet, werden mehrere Aktualisierungen derselben Zeile zwischen den Abfrageintervallen zu einer einzigen Änderung zusammengefasst. Journaltabellen spiegeln das Nettoergebnis von Änderungen wider, nicht jeden Zwischenstatus. Weitere Informationen dazu finden Sie unter Allgemeine Informationen zu Openflow Connector for SQL Server.

Die Namen der Journaltabellen haben folgendes Format:<source_table_name>_JOURNAL_<timestamp>_<schema_generation>, wobei <timestamp> der Wert der Epochensekunden ist und angibt, wann die Quelltabelle zur Replikation hinzugefügt wurde, und <schema_generation> eine ganze Zahl ist, die mit jeder Schemaänderung in der Quelltabelle erhöht wird. Infolgedessen haben Quelltabellen, die Schemaänderungen unterliegen, mehrere Journaltabellen.

Wenn Sie eine Tabelle aus der Replikation entfernen und anschließend wieder hinzufügen, dann ändert sich der <timestamp>-Wert und``<schema_generation>`` beginnt wieder mit 1.

Wichtig

Snowflake empfiehlt, die Struktur von Journaltabellen in keiner Weise zu verändern. Sie werden vom Konnektor verwendet, um die Zieltabelle im Rahmen der Replikation zu aktualisieren.

Der Konnektor löscht Journaltabellen nie, sondern verwendet das neueste Journal für jede replizierte Quelltabelle und liest dabei nur Nur-Anfügen-Streams über Journale. Um den Speicher wieder freizugeben, können Sie Folgendes tun:

Sie können alle Journaltabellen jederzeit kürzen.
Löschen Sie die Journaltabellen, die sich auf Quelltabellen beziehen, die aus der Replikation entfernt wurden.
Löschen Sie alle Journaltabellen bis auf die neueste Generation aktiv replizierter Tabellen.

Wenn Ihr Konnektor beispielsweise so eingestellt ist, dass er die Quelltabelle orders aktiv repliziert, und Sie zuvor die Tabelle customers aus der Replikation entfernt haben, haben Sie möglicherweise die folgenden Journaltabellen. In diesem Fall können Sie alle außer orders_5678_2 löschen.

customers_1234_1
customers_1234_2
orders_5678_1
orders_5678_2

Planung von Zusammenführungsaufgaben konfigurieren¶

Der Konnektor verwendet ein Warehouse, um Daten aus der Änderungsdatenerfassung (CDC) in Zieltabellen zusammenzuführen. Diese Operation wird durch den Prozessor MergeSnowflakeJournalTable ausgelöst. Wenn es keine neuen Änderungen gibt oder wenn keine neuen FlowFiles in der MergeSnowflakeJournalTable-Warteschlange warten, wird keine Zusammenführung ausgelöst und das Warehouse wird automatisch ausgesetzt.

Verwenden Sie den CRON-Ausdruck im CRON-Parameter „Merge task Schedule“, um die Warehouse-Kosten zu begrenzen und die Zusammenführungen auf die geplanten Zeiten zu beschränken. Er drosselt die Flow-Dateien, die beim MergeSnowflakeJournalTable-Prozessor eingehen, und Zusammenführungen werden nur in einem bestimmten Zeitraum ausgelöst. Weitere Informationen zur Zeitplanung finden Sie unter Zeitplanungsstrategie.

Führen Sie den Ablauf aus¶

Klicken Sie mit der rechten Maustaste auf die Ebene, und wählen Sie Enable all Controller Services.
Klicken Sie mit der rechten Maustaste auf die importierte Prozessgruppe und wählen Sie Start. Der Konnektor startet die Datenaufnahme.