Einrichten von Openflow Connector for MySQL¶

Bemerkung

Dieser Connector unterliegt den `Nutzungsbedingungen für Snowflake Connector<https://www.snowflake.com/legal/snowflake-connector-terms/>`_.

Unter diesem Thema werden die Schritte zur Einrichtung von Openflow Connector for MySQL beschrieben.

Bemerkung

This connector can be configured to immediately start replicating incremental changes for newly added tables, bypassing the snapshot load phase. This option is often useful when reinstalling the connector in an account where previously replicated data exists and you want to continue replication without having to re-snapshot tables.

For details on the incremental load process, see Incremental replication.

Voraussetzungen¶

Stellen Sie sicher, dass Sie Allgemeine Informationen zu Openflow Connector for MySQL gelesen haben.
Ensure that you have Openflow einrichten – BYOC or Set up Openflow - Snowflake Deployments.
If using Openflow - Snowflake Deployments, ensure that you’ve reviewed configuring required domains and have granted access to the required domains for the MySQL connector.
Stellen Sie sicher, dass Sie über MySQL 8 oder eine neuere Version verfügen, um Daten mit Snowflake zu synchronisieren.
Empfohlen: Stellen Sie sicher, dass Sie nur eine Konnektor-Instanz pro Laufzeitumgebung hinzufügen.

Führen Sie als Datenbankadministrator die folgenden Aufgaben aus:

Aktivieren Sie Binärprotokolle, speichern Sie dann und konfigurieren Sie das Format wie folgt:

`log_bin`	Auf `on` setzen. Dies aktiviert das binäre Protokoll, das Struktur- und Datenänderungen aufzeichnet.
`binlog_format`	Auf `row` setzen. Der Konnektor unterstützt nur zeilenbasierte Replikation. MySQL 8.x-Versionen sind möglicherweise die letzten, die diese Einstellung unterstützen. Zukünftige Versionen werden nur noch die zeilenbasierte Replikation unterstützen. Nicht anwendbar in GCP-Cloud-SQL, wo er auf den richtigen Wert festgelegt ist.
`binlog_row_metadata`	Auf `full` setzen. Der Konnektor benötigt alle Zeilenmetadaten, um zu funktionieren, vor allem Spaltennamen und Primärschlüsselinformationen. Under Microsoft Azure Database for MySQL the `binlog_row_metadata` field is not user modifiable. Raise a Microsoft support ticket to change this value.
`binlog_row_image`	Auf `full` setzen. Der Konnektor verlangt, dass alle Spalten in das binäre Protokoll geschrieben werden. Nicht anwendbar in Amazon Aurora, wo er auf den richtigen Wert festgelegt ist.
`binlog_row_value_options`	Leave empty. Diese Option wirkt sich nur auf JSON-Spalten aus, wo sie so eingestellt werden kann, dass nur die geänderten Teile von JSON-Dokumenten für `UPDATE`-Anweisungen berücksichtigt werden. Der Konnektor erfordert, dass vollständige Dokumente in das Binärprotokoll geschrieben werden.
`binlog_expire_logs_seconds`	Stellen Sie den Wert auf mindestens einige Stunden oder länger ein, um sicherzustellen, dass der Datenbankagent die inkrementelle Replikation nach längeren Pausen oder Ausfallzeiten fortsetzen kann. Snowflake empfiehlt, den Zeitraum für den Ablauf des Binärprotokolls (binlog_expire_logs_seconds) auf mindestens einige Stunden einzustellen, um ein stabiles Funktionieren des Konnektors zu gewährleisten. Nachdem der Ablaufzeitraum des Binärprotokolls endet, werden die Binärprotokolldateien möglicherweise automatisch entfernt. Wenn die Integration für einen längeren Zeitraum pausiert, z. B. aufgrund von Wartungsarbeiten, und die abgelaufenen Binärprotokolldateien während dieser Zeit gelöscht werden, kann Openflow die Daten aus diesen Dateien nicht replizieren. Wenn Sie die geplante Replikation verwenden, muss der Wert länger sein als der konfigurierte Zeitplan.

Beispiel:

log_bin = on
binlog_format = row
binlog_row_metadata = full
binlog_row_image = full
binlog_row_value_options =

Copy

Erhöhen Sie den Wert von sort_buffer_size.
```
sort_buffer_size = 4194304
```
Copy
sort_buffer_size definiert die Menge an Speicher (in Bytes), die pro Abfrage-Thread für Sortieroperationen im Arbeitsspeicher wie ORDER BY zugewiesen wird. Wenn der Wert zu klein ist, kann der Konnektor mit der folgenden Fehlermeldung fehlschlagen:

Out of sort memory, consider increasing server sort buffer size. Dies bedeutet, dass sort_buffer_size erhöht werden sollte.
Wenn Sie Amazon RDS-Datenbanken verwenden, dann erhöhen Sie die Aufbewahrungsfrist entsprechend binlog_expire_logs_seconds mit rds_set_configuration. Wenn Sie beispielsweise Binlogs für 24 Stunden speichern möchten, rufen Sie mysql.rds_set_configuration('binlog retention hours', 24) auf.
Wenn Sie ein Lesereplikat zum Verbinden verwenden, muss die binäre Protokollierung für das Replikat aktiviert sein.

Einzelheiten zur Konfiguration finden Sie in Schritt 4.
Nachdem die binäre Protokollierung aktiviert wurde, konfigurieren das Replikat so, dass die von der Quelle empfangenen Ereignisse in einem eigenen binären Protokoll protokolliert werden.
```
log_replica_updates = ON
```
Copy
log_replica_updates ermöglicht es dem Replikat, Ereignisse, die von seiner Quelle empfangen werden, in sein eigenes Binärprotokoll zu schreiben und diese Änderungen allen Datenbanken zur Verfügung zu stellen, die von ihr repliziert werden.
Verbinden Sie sich über SSL. Wenn Sie eine SSL-Verbindung zu MySQL verwenden möchten, bereiten Sie das Stammzertifikat für Ihren Datenbankserver vor. Es wird während der Konfiguration benötigt.
Erstellen Sie einen Benutzer für den Connector. Der Konnektor benötigt einen Benutzer mit den Berechtigungen REPLICATION_SLAVE und REPLICATION_CLIENT zum Lesen der Binärprotokolle. Erteilen Sie folgende Berechtigungen:
```
GRANT REPLICATION SLAVE ON *.* TO '<username>'@'%'
GRANT REPLICATION CLIENT ON *.* TO '<username>'@'%'
```
Copy
Erteilen Sie die SELECT-Berechtigung für jede replizierte Tabelle:
```
GRANT SELECT ON <schema>.* TO '<username>'@'%'
GRANT SELECT ON <schema>.<table> TO '<username>'@'%'
```
Copy
Weitere Informationen zur Replikationssicherheit finden Sie unter Binärprotokoll.

Als Snowflake-Kontoadministrator führen Sie die folgenden Aufgaben aus:
1. Erstellen Sie einen Snowflake Benutzer mit dem Typ als SERVICE. Erstellen Sie eine Datenbank, um die replizierten Daten zu speichern, und richten Sie Berechtigungen für den Snowflake-Benutzer ein, um Objekte in dieser Datenbank zu erstellen, indem Sie die Berechtigungen USAGE und CREATE SCHEMA erteilen.
  CREATE DATABASE <destination_database>; CREATE USER <openflow_user> TYPE=SERVICE COMMENT='Service user for automated access of Openflow'; CREATE ROLE <openflow_role>; GRANT ROLE <openflow_role> TO USER <openflow_user>; GRANT USAGE ON DATABASE <destination_database> TO ROLE <openflow_role>; GRANT CREATE SCHEMA ON DATABASE <destination_database> TO ROLE <openflow_role>; CREATE WAREHOUSE <openflow_warehouse> WITH WAREHOUSE_SIZE = 'MEDIUM' AUTO_SUSPEND = 300 AUTO_RESUME = TRUE; GRANT USAGE, OPERATE ON WAREHOUSE <openflow_warehouse> TO ROLE <openflow_role>;
  Copy
2. Erstellen Sie ein Paar sicherer Schlüssel (öffentlich und privat). Speichern Sie den privaten Schlüssel des Benutzers in einer Datei, die Sie der Konfiguration des Konnektors zur Verfügung stellen. Weisen Sie den öffentlichen Schlüssel dem Benutzer des Snowflake-Dienstes zu:
  ALTER USER <openflow_user> SET RSA_PUBLIC_KEY = 'thekey';
  Copy
  Weitere Informationen finden Sie unter Schlüsselpaar.
3. Bestimmen Sie ein Warehouse, das der Konnektor verwenden soll. Beginnen Sie mit der Größe des MEDIUM-Warehouse und experimentieren Sie dann mit der Größe in Abhängigkeit von der Anzahl der zu replizierenden Tabellen und der Menge der übertragenen Daten. Große Tabellenzahlen lassen sich in der Regel besser mit Multi-Cluster-Warehouses als mit der Warehouse-Größe.

Einrichten des Konnektors¶

Als Data Engineer führen Sie die folgenden Aufgaben aus, um den Konnektor zu installieren und zu konfigurieren:

Konnektor installieren¶

Navigate to the Openflow overview page. In the Featured connectors section, select View more connectors.
Suchen Sie auf der Seite Openflow-Konnektoren den Konnektor und wählen Sie Add to runtime.
In the Select runtime dialog, select your runtime from the Available runtimes drop-down list and click Add.

Bemerkung

Bevor Sie den Konnektor installieren, stellen Sie sicher, dass Sie in Snowflake eine Datenbank und ein Schema für den Konnektor erstellt haben, in dem die aufgenommenen Daten gespeichert werden.
Authentifizieren Sie sich bei der Bereitstellung mit den Anmeldedaten Ihres Snowflake-Kontos und wählen Sie Allow, wenn Sie dazu aufgefordert werden, damit die Laufzeitanwendung auf Ihr Snowflake-Konto zugreifen kann. Die Installation des Konnektors nimmt einige Minuten in Anspruch.
Authentifizieren Sie sich bei der Laufzeit mit den Anmeldeinformationen Ihres Snowflake-Kontos.

Das Openflow-Canvas wird mit der hinzugefügten Prozessgruppe des Konnektors angezeigt.

Konnektor konfigurieren¶

Sie können den Konnektor für die folgenden Anwendungsfälle konfigurieren:

Replizieren Sie eine Reihe von Tabellen in Echtzeit¶

Klicken Sie mit der rechten Maustaste auf die importierte Prozessgruppe und wählen Sie Parameters.
Geben Sie die erforderlichen Parameterwerte ein, wie unter Ablaufparameter beschrieben.

Ablaufparameter¶

Beginnen Sie mit dem Festlegen der Quellsystemparamater für MySQL, und legen Sie dann die Zielsystemparameter für MySQL fest. Sobald dies erledigt ist, können Sie den Konnektor aktivieren. Der Konnektor muss sich sowohl mit MySQL als auch mit Snowflake verbinden und dann ausgeführt werden. Der Konnektor repliziert jedoch erst dann Daten, wenn die zu replizierenden Tabellen explizit zu seiner Konfiguration hinzugefügt wurden.

Um bestimmte Tabellen für die Replikation zu konfigurieren, bearbeiten Sie die Aufnahmeparameter für MySQL. Nachdem Sie die Änderungen im Kontext „Replikationsparameter“ übernommen haben, wird die Konfiguration vom Konnektor übernommen und der Replikationslebenszyklus für jede Tabelle gestartet.

Quellsystemparameter für MySQL¶

Parameter	Beschreibung
MySQL Connection URL	Die vollständige JDBC-URL zur Quelldatenbank. Der Konnektor verwendet den MariaDB-Treiber, der mit MySQL kompatibel ist, und erfordert das Präfix``jdbc:mariadb`` in der URL. Wenn SSL deaktiviert ist, dann sollte für die Verbindungs-URL der Parameter `allowPublicKeyRetrieval` auf `true` gesetzt sein. Beispiele: Mit SSL aktiviert: `jdbc:mariadb://example.com:3306` Mit SSL deaktiviert: `jdbc:mariadb://example.com:3306?allowPublicKeyRetrieval=true`
MySQL-JDBC-Treiber	Der absolute Pfad zum MariaDB JDBC-Treiber-Jar-Datei. Der Konnektor verwendet den MariaDB-Treiber, der mit MySQL kompatibel ist. Aktivieren Sie das Kontrollkästchen Reference asset, um den MariaDB JDBC-Treiber hochzuladen. Beispiel: `/opt/resources/drivers/mariadb-java-client-3.5.2.jar`
MySQL Username	Der Benutzername für den Konnektor.
MySQL Password	Das Kennwort für den Konnektor.

Zielsystemparameter für MySQL¶

Parameter	Beschreibung	Erforderlich
Destination Database	Die Datenbank, in der die Daten als persistent gespeichert werden. Muss bereits in Snowflake vorhanden sein. Beim Namen wird zwischen Groß- und Kleinschreibung unterschieden. Bei Bezeichnern ohne Anführungszeichen geben Sie den Namen in Großbuchstaben an.	Ja
Snowflake Authentication Strategy	Bei Verwendung von: Snowflake Openflow Deployment or BYOC: Use SNOWFLAKE_SESSION_TOKEN. This token is managed automatically by Snowflake. BYOC deployments must have previously configured runtime roles to use SNOWFLAKE_SESSION_TOKEN. BYOC: Alternatively BYOC can use KEY_PAIR as the value for authentication strategy.	Ja
Snowflake Account Identifier	Bei Verwendung von: Strategie für die Authentifizierung mit Sitzungstoken: Muss leer sein. KEY_PAIR: Snowflake-Kontoname im Format [Organisationsname]-[Kontoname], wobei die Daten persistent gespeichert werden.	Ja
Snowflake Private Key	Bei Verwendung von: Strategie für die Authentifizierung mit Sitzungstoken: Muss leer sein. KEY_PAIR$RSA Muss der RSA private Schlüssel sein, der für die Authentifizierung verwendet wird. Der RSA-Schlüssel muss entsprechend den PKCS8-Standards formatiert sein und standardmäßige PEM-Header und Footer haben. Beachten Sie, dass entweder eine private Snowflake-Schlüsseldatei oder ein privater Snowflake-Schlüssel definiert werden muss.	Nein
Snowflake Private Key File	Bei Verwendung von: Strategie für die Authentifizierung mit Sitzungstoken: Die private Schlüsseldatei muss leer sein. KEY_PAIR$RSA Laden Sie die Datei hoch, die den RSA Private Key für die Authentifizierung bei Snowflake enthält, formatiert nach PKCS8-Standards und mit Standard-PEM-Header und -Footer. Die Header-Zeile beginnt mit `-----BEGIN PRIVATE`. Aktivieren Sie das Kontrollkästchen Reference asset, um die Private Key-Datei hochzuladen.	Nein
Snowflake Private Key Password	Bei Verwendung von Strategie für die Authentifizierung mit Sitzungstoken: Muss leer sein. KEY_PAIR: Geben Sie das Kennwort an, das mit der privaten Snowflake-Schlüsseldatei verbunden ist.	Nein
Snowflake Role	Bei Verwendung von Strategie für die Authentifizierung mit Sitzungstoken: Verwenden Sie Ihre Laufzeitrolle. Sie finden Ihre Laufzeitrolle in der Openflow-UI, indem Sie zu View Details für Ihre Laufzeitumgebung navigieren. KEY_PAIR Authentifizierungsstrategie: Verwenden Sie eine gültige Rolle, die für Ihren Dienstbenutzer konfiguriert ist.	Ja
Snowflake-Benutzername	Bei Verwendung von Strategie für die Authentifizierung mit Sitzungstoken: Muss leer sein. KEY_PAIR: Geben Sie den Benutzernamen an, der für die Verbindung mit der Snowflake-Instanz verwendet wird.	Ja
Snowflake Warehouse	Snowflake Warehouse, das für die Ausführung von Abfragen verwendet wird.	Ja

Aufnahmeparameter für MySQL¶

Parameter	Beschreibung
Included Table Names	Eine durch Kommas getrennte Liste von Tabellenpfaden, einschließlich ihrer Schemas. Beispiel: `public.my_table, other_schema.other_table`
Included Table Regex	Ein regulärer Ausdruck zum Abgleich mit Tabellenpfaden. Jeder Pfad, der mit dem Ausdruck übereinstimmt, wird repliziert, und neue Tabellen, die dem Muster entsprechen und später erstellt werden, werden ebenfalls automatisch einbezogen. Beispiel: `public\.auto_.*`
Filter JSON	Eine JSON-Datei, die eine Liste vollständig qualifizierter Tabellennamen und ein reguläres Ausdrucksmuster für Spaltennamen enthält, die in die Replikation einbezogen werden sollen. Beispiel: `[ {"schema":"public", "table":"table1", "includedPattern":".*name"} ]` wird alle Spalten, die mit `name` enden, in `table1` aus dem Schema `public` aufnehmen.
Merge Task Schedule CRON	CRON-Ausdruck, der Zeiträume definiert, in denen Zusammenführungsoperationen vom Journal zur Zieltabelle ausgelöst werden. Setzen Sie ihn auf `* * * * * ?`, wenn Sie eine kontinuierliche Zusammenführung oder keinen Zeitplan zur Begrenzung der Warehouse-Laufzeit wünschen. Die Zeichenfolge `* 0 * * * ?` gibt beispielsweise an, dass Sie Zusammenführungen zu jeder vollen Stunde für eine Minute planen möchten. Die Zeichenfolge `* 20 14 ? * MON-FRI` gibt an, dass Sie Zusammenführungen um 2:20 PM jeden Montag bis Freitag planen möchten. Weitere Informationen und Beispiele finden Sie im CronTrigger-Tutorial.
Object Identifier Resolution	Specifies how source object identifiers such as the names of schemas, tables, and columns are stored and queried in Snowflake. This setting specifies that you must use double quotes in SQL queries. Option 1: Default, case-sensitive. For backwards compatibility. Transformation: Case is preserved. For example, `My_Table` remains `My_Table`. Queries: SQL queries must use double quotes to match the exact case for database objects. For example, `SELECT * FROM "My_Table";`. Bemerkung Snowflake recommends using this option if you must preserve source casing for legacy or compatibility reasons. For example, if the source database includes table names that differ in case only–such as `MY_TABLE` and `my_table`–that would result in a name collision when using when using case-insensitive comparisons. Option 2: Recommended, case-insensitive Transformation: All identifiers are converted to uppercase. For example, `My_Table` becomes `MY_TABLE`. Queries: SQL queries are case-insensitive and don’t require SQL double quotes. For example, `SELECT * FROM my_table;` returns the same results as `SELECT * FROM MY_TABLE;`. Bemerkung Snowflake recommends using this option if database objects are not expected to have mixed case names. Wichtig Do not change this setting after the connector has begun ingesting data. Changing this setting after ingestion has begun breaks the existing ingestion. If you must change this setting, create a new connector instance.

Entfernen und erneutes Hinzufügen einer Tabelle zur Replikation¶

Um eine Tabelle aus der Replikation zu entfernen, stellen Sie sicher, dass sie aus den Parametern Included Table Names oder Included Table Regex im Replikationsparameterkontext entfernt wird.

Wenn Sie die Tabelle später wieder zur Replikation hinzufügen möchten, löschen Sie zunächst die entsprechende Zieltabelle in Snowflake. Danach fügen Sie die Tabelle wieder zu den Parametern Included Table Names oder Included Table Regex hinzu. Dadurch wird sichergestellt, dass der Replikationsprozess für die Tabelle neu beginnt.

Diese Vorgehensweise kann auch zur Wiederherstellung nach einer fehlgeschlagenen Tabellenreplikation verwendet werden.

Replizieren einer Teilmenge von Spalten in einer Tabelle¶

Der Konnektor kann die replizierten Daten pro Tabelle auf eine Teilmenge der konfigurierten Spalten filtern.

Um Filter auf Spalten anzuwenden, ändern Sie die Eigenschaft „Column Filter“ im Replikationsparameterkontext und fügen Sie ein Array mit Konfigurationen hinzu, wobei Sie für jede Tabelle, auf die Sie einen Filter anwenden möchten, einen Eintrag hinzufügen.

Spalten können nach Name oder Muster einbezogen oder ausgeschlossen werden. Sie können eine einzelne Bedingung pro Tabelle anwenden oder mehrere Bedingungen kombinieren, wobei Ausschlüsse immer Vorrang vor Einbeziehungen haben.

Das folgende Beispiel zeigt die Felder, die verfügbar sind. Die Felder schema und table sind Pflichtfelder. Eine oder mehrere der Optionen included, excluded, includedPattern, excludedPattern sind erforderlich.

[
    {
        "schema": "<source table schema>",
        "table" : "<source table name>",
        "included": ["<column name>", "<column name>"],
        "excluded": ["<column name>", "<column name>"],
        "includedPattern": "<regular expression>",
        "excludedPattern": "<regular expression>",
    }
]

Copy

Verfolgen von Datenänderungen in Tabellen¶

Der Konnektor repliziert nicht nur den aktuellen Zustand der Daten aus den Quelltabellen, sondern auch jeden Zustand jeder Zeile aus jedem Änderungssatz. Diese Daten werden in Journaltabellen gespeichert, die in demselben Schema wie die Zieltabelle erstellt wurden.

Die Journaltabellennamen haben folgendes Format: <source table name>_JOURNAL_<timestamp>_<schema generation> where <timestamp> is the value of epoch seconds when the source table was added to replication, and <schema generation> ist eine ganze Zahl, die mit jeder Schemaänderung in der Quelltabelle erhöht wird. Infolgedessen haben Quelltabellen, die Schemaänderungen unterliegen, mehrere Journaltabellen.

Wenn eine Tabelle aus der Replikation entfernt und dann wieder hinzugefügt wird, ändert sich der Wert von <timestamp> und <schema generation> beginnt wieder bei 1.

Wichtig

Snowflake empfiehlt, die Struktur von Journaltabellen in keiner Weise zu verändern. Sie werden vom Konnektor verwendet, um die Zieltabelle im Rahmen der Replikation zu aktualisieren.

Der Konnektor löscht nie Journaltabellen, sondern verwendet das neueste Journal für jede replizierte Quelltabelle und liest nur Nur-Anfügen-Streams über Journale. Um den Speicher wieder freizugeben, können Sie Folgendes tun:

Sie können alle Journaltabellen jederzeit kürzen.
Löschen Sie die Journaltabellen, die sich auf Quelltabellen beziehen, die aus der Replikation entfernt wurden.
Löschen Sie alle Journaltabellen bis auf die neueste Generation aktiv replizierter Tabellen.

Wenn Ihr Konnektor beispielsweise so eingestellt ist, dass er die Quelltabelle orders aktiv repliziert, und Sie zuvor die Tabelle customers aus der Replikation entfernt haben, haben Sie möglicherweise die folgenden Journaltabellen. In diesem Fall können Sie alle außer orders_5678_2 löschen.

customers_1234_1
customers_1234_2
orders_5678_1
orders_5678_2

Planung von Zusammenführungsaufgaben konfigurieren¶

Der Konnektor verwendet ein Warehouse, um Daten aus der Änderungsdatenerfassung (CDC) in Zieltabellen zusammenzuführen. Diese Operation wird durch den Prozessor MergeSnowflakeJournalTable ausgelöst. Wenn es keine neuen Änderungen gibt oder wenn keine neuen FlowFiles in der MergeSnowflakeJournalTable-Warteschlange warten, wird keine Zusammenführung ausgelöst und das Warehouse wird automatisch ausgesetzt.

Um die Warehouse-Kosten zu begrenzen und die Zusammenführungen nur auf die geplante Zeit zu beschränken, verwenden Sie den CRON-Ausdruck im Parameter „Merge task Schedule CRON“. Er drosselt die an den MergeSnowflakeJournalTable-Prozessor gelangenden FlowFiles und die Zusammenführung wird nur in einem bestimmten Zeitraum ausgelöst. Weitere Informationen zur Zeitplanung finden Sie unter Zeitplanungsstrategie.

Führen Sie den Ablauf aus¶

Klicken Sie mit der rechten Maustaste auf die Ebene, und wählen Sie Enable all Controller Services.
Klicken Sie mit der rechten Maustaste auf die importierte Prozessgruppe und wählen Sie Start. Der Konnektor startet die Datenaufnahme.