Einrichten von Openflow Connector for PostgreSQL¶
Bemerkung
Der Konnektor unterliegt den Bedingungen für Konnektoren.
Unter diesem Thema werden die Schritte zur Einrichtung von Openflow Connector for PostgreSQL beschrieben.
Voraussetzungen¶
Stellen Sie sicher, dass Sie Allgemeine Informationen zu Openflow Connector for PostgreSQL gelesen haben.
Vergewissern Sie sich, dass Sie die unterstützten PostgreSQL-Versionen überprüft haben.
Stellen Sie sicher, dass Sie Openflow eingerichtet haben.
Führen Sie als Datenbankadministrator die folgenden Aufgaben aus:
Stellen Sie sicher, dass auf Ihrem PostgreSQL-Server genügend Speicherplatz für die WAL vorhanden ist. Das liegt daran, dass ein Replikationsslot nach der Erstellung dafür sorgt, dass PostgreSQL die Daten aus der Position des Replikationsslots beibehält, bis der Konnektor diese Position bestätigt und weiterleitet.
Stellen Sie sicher, dass jede für die Replikation aktivierte Tabelle einen Primärschlüssel hat. Der Schlüssel kann eine einzelne oder eine zusammengesetzte Spalte sein.
Setzen Sie die REPLICA IDENTITY von Tabellen auf
DEFAULT
. Dadurch wird sichergestellt, dass die Primärschlüssel in der WAL dargestellt werden und der Konnektor sie lesen kann.Erstellen Sie einen Benutzer für den Connector. Der Konnektor benötigt einen Benutzer mit dem
REPLICATION
-Attribut und der SELECT-Berechtigung aus jeder replizierten Tabelle. Erstellen Sie diesen Benutzer mit einem Kennwort, das Sie in die Konfiguration des Konnektors eingeben müssen. Weitere Informationen zur Replikationssicherheit finden Sie unter Sicherheit.
Wal_level konfigurieren¶
Openflow Connector for PostgreSQL erfordert, dass wal_level auf logical
gesetzt wird.
Je nachdem, wo Ihr PostgreSQL-Server gehostet wird, können Sie den wal_level wie folgt konfigurieren:
Vor Ort |
Führen Sie die folgende Abfrage mit dem Superuser oder einem Benutzer mit der Berechtigung
|
RDS |
Dem vom Agenten verwendeten Benutzer muss die Rolle Sie müssen auch Einstellungen vornehmen:
|
AWS Aurora |
Setzen Sie den statischen Parameter |
GCP |
Setzen Sie die folgenden Flags:
|
Azure |
Stellen Sie die Unterstützung der Replikation auf |
Eine Publikation erstellen¶
Openflow Connector for PostgreSQL erfordert, dass eine -Veröffentlichung erstellt und in PostgreSQL konfiguriert wird, bevor die Replikation beginnt. Sie können es für alle oder eine Teilmenge von Tabellen sowie für bestimmte Tabellen mit nur bestimmten Spalten erstellen. Vergewissern Sie sich, dass alle Tabellen und Spalten, die Sie replizieren möchten, in der Veröffentlichung enthalten sind. Sie können die Veröffentlichung auch später ändern, während der Konnektor läuft. Um eine Publikation zu erstellen und zu konfigurieren, gehen Sie wie folgt vor:
Melden Sie sich als Benutzer mit der Berechtigung
CREATE
in der Datenbank an und führen Sie folgende Abfrage aus:
CREATE PUBLICATION <publication name>;
Definieren Sie Tabellen, die der Datenbankagent sehen kann:
ALTER PUBLICATION <publication name> ADD TABLE <table name>;
Wichtig
PostgreSQL 15 und später unterstützt die Konfiguration von Veröffentlichungen für eine bestimmte Untergruppe von Tabellenspalten. Damit der Konnektor dies korrekt unterstützt, müssen Sie die Spaltenfiltereinstellungen verwenden, um die gleichen Spalten einzuschließen, die auch in der Veröffentlichung eingestellt sind.
Ohne diese Einstellung zeigt der Konnektor das folgende Verhalten:
In der Zieltabelle werden Spalten, die nicht im Filter enthalten sind, mit
__DELETED
versehen. Alle Daten, die während der Snapshot-Phase repliziert wurden, sind weiterhin vorhanden.Nach dem Hinzufügen neuer Spalten zur Veröffentlichung wird die Tabelle dauerhaft fehlerhaft und muss neu repliziert werden.
Weitere Informationen dazu finden Sie unter ALTERPUBLICATION.
Als Snowflake-Kontoadministrator führen Sie die folgenden Aufgaben aus:
Erstellen Sie einen Snowflake Benutzer mit dem Typ als SERVICE. Erstellen Sie eine Datenbank, um die replizierten Daten zu speichern, und richten Sie Berechtigungen für den Snowflake-Benutzer ein, um Objekte in dieser Datenbank zu erstellen, indem Sie die Berechtigungen USAGE und CREATE SCHEMA erteilen.
CREATE DATABASE <destination_database>; CREATE USER <openflow_user> TYPE=SERVICE COMMENT='Service user for automated access of Openflow'; CREATE ROLE <openflow_role>; GRANT ROLE <openflow_role> TO USER <openflow_user>; GRANT USAGE ON DATABASE <destination_database> TO ROLE <openflow_role>; GRANT CREATE SCHEMA ON DATABASE <destination_database> TO ROLE <openflow_role>; CREATE WAREHOUSE <openflow_warehouse> WITH WAREHOUSE_SIZE = 'MEDIUM' AUTO_SUSPEND = 300 AUTO_RESUME = TRUE; GRANT USAGE, OPERATE ON WAREHOUSE <openflow_warehouse> TO ROLE <openflow_role>;
Erstellen Sie ein Paar sicherer Schlüssel (öffentlich und privat). Speichern Sie den privaten Schlüssel des Benutzers in einer Datei, die Sie der Konfiguration des Konnektors zur Verfügung stellen. Weisen Sie den öffentlichen Schlüssel dem Benutzer des Snowflake-Dienstes zu:
ALTER USER <openflow_user> SET RSA_PUBLIC_KEY = 'thekey';
Weitere Informationen finden Sie unter Schlüsselpaar.
Bestimmen Sie ein Warehouse, das der Konnektor verwenden soll. Beginnen Sie mit der Größe des
MEDIUM
-Warehouse und experimentieren Sie dann mit der Größe in Abhängigkeit von der Anzahl der zu replizierenden Tabellen und der Menge der übertragenen Daten. Große Tabellenzahlen lassen sich in der Regel besser mit Multi-Cluster-Warehouses als mit der Warehouse-Größe.
Importieren Sie die Konnektordefinition in Openflow¶
Navigieren Sie zur Openflow-Übersichtsseite. Wählen Sie im Abschnitt Featured connectors die Option View more connectors aus.
Suchen Sie auf der Seite Openflow-Konnektoren den Konnektor und wählen Sie Add to runtime.
Wählen Sie im Dialog Select runtime Ihre Laufzeit aus der Dropdown-Liste Available runtimes aus.
Wählen Sie Add aus.
Bemerkung
Bevor Sie den Konnektor installieren, stellen Sie sicher, dass Sie in Snowflake eine Datenbank und ein Schema für den Konnektor erstellt haben, in dem die aufgenommenen Daten gespeichert werden.
Authentifizieren Sie sich bei der Bereitstellung mit den Anmeldedaten Ihres Snowflake-Kontos und wählen Sie Allow, wenn Sie dazu aufgefordert werden, damit die Laufzeitanwendung auf Ihr Snowflake-Konto zugreifen kann. Die Installation des Konnektors nimmt einige Minuten in Anspruch.
Authentifizieren Sie sich bei der Laufzeit mit den Anmeldeinformationen Ihres Snowflake-Kontos.
Das Openflow-Canvas wird mit der hinzugefügten Prozessgruppe des Konnektors angezeigt.
Konnektor konfigurieren¶
Sie können den Konnektor für die folgenden Anwendungsfälle konfigurieren:
Replizieren Sie eine Reihe von Tabellen in Echtzeit¶
Klicken Sie mit der rechten Maustaste auf die importierte Prozessgruppe und wählen Sie Parameters.
Geben Sie die erforderlichen Parameterwerte ein, wie unter Ablaufparameter beschrieben.
Ablaufparameter¶
Beginnen Sie mit dem Festlegen der Quellsystemparamater für PostgreSQL, und legen Sie dann die Zielsystemparameter für PostgreSQL fest. Sobald dies erledigt ist, können Sie den Connector aktivieren. Er sollte sich dann sowohl mit PostgreSQL als auch mit Snowflake verbinden und mit der Ausführung beginnen. Es werden jedoch keine Daten repliziert, bis Tabellen explizit zu seiner Konfiguration hinzugefügt werden.
Um bestimmte Tabellen für die Replikation zu konfigurieren, bearbeiten Sie die Aufnahmeparameter für PostgreSQL. Kurz nachdem Sie die Änderungen an den Replikationsparametern vorgenommen haben, wird die Konfiguration vom Konnektor übernommen und der Replikationslebenszyklus beginnt für jede Tabelle.
Quellsystemparameter für PostgreSQL¶
Parameter |
Beschreibung |
---|---|
Postgres Connection URL |
Die vollständige JDBC URL zur Quelldatenbank. Beispiel: |
Postgres JDBC Driver |
Der Pfad zur PostgreSQL JDBC-Treiber-Jar-Datei. Laden Sie die JAR-Datei von der Website herunter und aktivieren Sie dann das Kontrollkästchen Reference asset, um sie hochzuladen und anzuhängen. |
Postgres SSL Mode |
Aktiviert oder deaktiviert SSL Verbindungen. |
Postgres Root SSL Certificate |
Der vollständige Inhalt des Stammzertifikats für die Datenbank. Optional, wenn SSL deaktiviert ist. |
Postgres Username |
Der Benutzername für den Konnektor. |
Postgres Password |
Das Kennwort für den Konnektor. |
Publication Name |
Der Name der Veröffentlichung, die Sie zuvor erstellt haben. |
Zielsystemparameter für PostgreSQL¶
Parameter |
Beschreibung |
---|---|
Destination Database |
Die Datenbank, in der die Daten persistiert werden. Sie muss bereits in Snowflake vorhanden sein. |
Snowflake Account Identifier |
Snowflake-Kontoname im Format [organisation-name]-[account-name], in dem die Daten gespeichert werden |
Snowflake Authentication Strategy |
Strategie zur Authentifizierung bei Snowflake. Mögliche Werte: |
Snowflake Private Key |
Der private RSA Schlüssel, der für die Authentifizierung verwendet wird. Der RSA-Schlüssel muss nach den PKCS8-Standards formatiert sein und den Standard-PEM-Header und -Footer enthalten. Beachten Sie, dass entweder Snowflake Private Key File oder Snowflake Private Key definiert sein muss. |
Snowflake Private Key File |
Die Datei, die den privaten RSA-Schlüssel enthält, der für die Authentifizierung bei Snowflake verwendet wird. Sie ist nach den PKCS8-Standards formatiert und hat die Standard-PEM-Header und -Footer. Die Header beginnt mit |
Snowflake Private Key Password |
Das Kennwort, das mit der Snowflake Private Key-Datei verknüpft ist |
Snowflake Role |
Snowflake-Rolle, die bei der Ausführung der Abfrage verwendet wird |
Snowflake-Benutzername |
Benutzername für die Verbindung zur Snowflake-Instanz |
Snowflake Warehouse |
Snowflake Warehouse zur Ausführung von Abfragen |
Aufnahmeparameter für PostgreSQL¶
Parameter |
Beschreibung |
---|---|
Included Table Names |
Eine durch Kommas getrennte Liste von Tabellenpfaden, einschließlich ihrer Schemas. Beispiel: |
Included Table Regex |
Ein regulärer Ausdruck zum Abgleich mit Tabellenpfaden. Jeder Pfad, der mit dem Ausdruck übereinstimmt, wird repliziert, und neue Tabellen, die dem Muster entsprechen und später erstellt werden, werden ebenfalls automatisch einbezogen. Beispiel: |
Filter JSON |
Eine JSON-Datei, die eine Liste vollständig qualifizierter Tabellennamen und ein reguläres Ausdrucksmuster für Spaltennamen enthält, die in die Replikation einbezogen werden sollen. Beispiel: |
Merge Task Schedule CRON |
CRON-Ausdruck, der Zeiträume definiert, in denen Zusammenführungsoperationen vom Journal zur Zieltabelle ausgelöst werden. Setzen Sie ihn auf Beispiel:
Weitere Informationen und Beispiele finden Sie in der Anleitung zu Cron-Triggern in der Quartz-Dokumentation |
Entfernen und erneutes Hinzufügen einer Tabelle zur Replikation¶
Um eine Tabelle aus der Replikation zu entfernen, stellen Sie sicher, dass sie aus den Parametern Included Table Names
oder Included Table Regex
im Replikationsparameterkontext entfernt wird.
Wenn Sie die Tabelle später wieder zur Replikation hinzufügen möchten, löschen Sie zunächst die entsprechende Zieltabelle in Snowflake. Danach fügen Sie die Tabelle wieder zu den Parametern Included Table Names
oder Included Table Regex
hinzu. Dadurch wird sichergestellt, dass der Replikationsprozess für die Tabelle neu beginnt.
Diese Vorgehensweise kann auch zur Wiederherstellung nach einer fehlgeschlagenen Tabellenreplikation verwendet werden.
Replizieren einer Teilmenge von Spalten in einer Tabelle¶
Der Konnektor kann die replizierten Daten pro Tabelle auf eine Teilmenge der konfigurierten Spalten filtern.
Um Filter auf Spalten anzuwenden, ändern Sie die Eigenschaft „Column Filter“ im Replikationsparameterkontext und fügen Sie ein Array mit Konfigurationen hinzu, wobei Sie für jede Tabelle, auf die Sie einen Filter anwenden möchten, einen Eintrag hinzufügen.
Spalten können nach Name oder Muster einbezogen oder ausgeschlossen werden. Sie können eine einzelne Bedingung pro Tabelle anwenden oder mehrere Bedingungen kombinieren, wobei Ausschlüsse immer Vorrang vor Einbeziehungen haben.
Das folgende Beispiel zeigt die verfügbaren Felder. schema
und table
sind obligatorisch, und dann ist eines oder mehrere der Felder included
, excluded
, includedPattern
, excludedPattern
erforderlich.
[
{
"schema": "<source table schema>",
"table" : "<source table name>",
"included": ["<column name>", "<column name>"],
"excluded": ["<column name>", "<column name>"],
"includedPattern": "<regular expression>",
"excludedPattern": "<regular expression>",
}
]
Verfolgen von Datenänderungen in Tabellen¶
Der Konnektor repliziert nicht nur den aktuellen Zustand der Daten aus den Quelltabellen, sondern auch jeden Zustand jeder Zeile aus jedem Änderungssatz. Diese Daten werden in Journaltabellen gespeichert, die in demselben Schema wie die Zieltabelle erstellt wurden.
Die Namen der Journaltabellen sind folgendermaßen formatiert: <source table name>_JOURNAL_<timestamp>_<schema generation>
wobei <timestamp>
der Wert der Epochensekunden ist, als die Quelltabelle zur Replikation hinzugefügt wurde, und <schema generation>
eine Ganzzahl ist, die mit jeder Schemaänderung der Quelltabelle steigt. Das bedeutet, dass eine Quelltabelle, die Schemaänderungen erfährt, mehrere Journaltabellen hat.
Wenn eine Tabelle aus der Replikation entfernt und dann wieder hinzugefügt wird, ändert sich der Wert von <timestamp>
und <schema generation>
beginnt wieder bei 1
.
Wichtig
Snowflake empfiehlt Ihnen, die Journaltabellen oder die darin enthaltenen Daten in keiner Weise zu verändern. Sie werden vom Konnektor verwendet, um die Zieltabelle als Teil des Replikationsprozesses zu aktualisieren.
Der Konnektor löscht niemals Journaltabellen, sondern verwendet für jede replizierte Quelltabelle nur das aktuellste Journal. Wenn Sie den Speicherplatz wieder freigeben möchten, können Sie die Journaltabellen, die sich auf die aus der Replikation entfernten Quelltabellen beziehen, sowie alle außer den neuesten Generationen für aktiv replizierte Tabellen sicher löschen.
Wenn Ihr Konnektor beispielsweise so eingestellt ist, dass er die Quelltabelle orders
aktiv repliziert, und Sie zuvor die Tabelle customers
aus der Replikation entfernt haben, haben Sie möglicherweise die folgenden Journaltabellen. In diesem Fall können Sie alle außer orders_5678_2
löschen.
customers_1234_1
customers_1234_2
orders_5678_1
orders_5678_2
Planung von Zusammenführungsaufgaben konfigurieren¶
Der Konnektor verwendet ein Warehouse, um Daten aus der Änderungsdatenerfassung (CDC) in Zieltabellen zusammenzuführen. Diese Operation wird durch den Prozessor MergeSnowflakeJournalTable ausgelöst. Wenn es keine neuen Änderungen gibt oder wenn keine neuen FlowFiles in der MergeSnowflakeJournalTable-Warteschlange warten, wird keine Zusammenführung ausgelöst und das Warehouse wird automatisch ausgesetzt.
Um die Warehouse-Kosten zu begrenzen und die Zusammenführungen nur auf die geplante Zeit zu beschränken, verwenden Sie den CRON-Ausdruck im Parameter „Merge task Schedule CRON“. Er drosselt die an den MergeSnowflakeJournalTable-Prozessor gelangenden FlowFiles und die Zusammenführung wird nur in einem bestimmten Zeitraum ausgelöst. Weitere Informationen zur Zeitplanung finden Sie unter Zeitplanungsstrategie.
Den Konnektor anhalten oder löschen¶
Wenn Sie den Konnektor anhalten oder entfernen, müssen Sie den Replikationsslot berücksichtigen, den der Konnektor verwendet.
Der Konnektor erstellt einen eigenen Replikationsslot mit einem Namen, der mit snowflake_connector_
beginnt, gefolgt von einem zufälligen Suffix. Wenn der Konnektor den Replikationsstrom liest, schiebt er den Slot weiter, sodass PostgreSQL sein WAL-Protokoll kürzen und Speicherplatz freigeben kann.
Wenn der Konnektor pausiert, wird der Slot nicht erweitert, und Änderungen an der Quelldatenbank erhöhen weiterhin die WAL-Protokollgröße. Sie sollten den Konnektor nicht für längere Zeit pausieren lassen, insbesondere nicht bei Datenbanken mit hohem Datenverkehr.
Wenn der Konnektor entfernt wird, sei es durch Löschen aus dem Openflow-Canvas oder auf andere Weise, z. B. durch Löschen der gesamten Openflow-Instanz, bleibt der Replikationsslot bestehen und muss manuell gelöscht werden.
Wenn Sie mehrere Konnektorinstanzen haben, die von derselben PostgreSQL-Datenbank replizieren, erstellt jede Instanz ihren eigenen, eindeutig benannten Replikationsslot. Wenn Sie einen Replikationsslot manuell löschen, vergewissern Sie sich, dass es sich um den richtigen handelt. Sie können sehen, welcher Replikationsslot von einer bestimmten Konnektorinstanz verwendet wird, indem Sie den Status des CaptureChangePostgreSQL
-Prozessors überprüfen.
Führen Sie den Ablauf aus¶
Klicken Sie mit der rechten Maustaste auf die Ebene, und wählen Sie Enable all Controller Services.
Klicken Sie mit der rechten Maustaste auf die importierte Prozessgruppe und wählen Sie Start. Der Konnektor startet die Datenaufnahme.