Über Openflow¶
Snowflake Openflow ist ein Integrationsdienst, der beliebige Datenquellen mit beliebigen Zielsystemen verbindet – mit Hunderten von Prozessoren, die strukturierte und unstrukturierte Daten wie Text, Bilder, Audio, Video und Sensordaten verarbeiten. Openflow basiert auf Apache NiFi und ermöglicht Ihnen, einen vollständig verwalteten Dienst in Ihrer eigenen Cloud zu betreiben und so die volle Kontrolle zu behalten.
Bemerkung
Die Openflow-Plattform ist derzeit für die Bereitstellung in den eigenen VPCs der Kunden in beiden AWS und Snowpark Container Services verfügbar.
Dieses Thema beschreibt die wichtigsten Features von Openflow, seine Vorteile, die Architektur und den Workflow sowie die Anwendungsfälle.
Wichtigste Features und Vorteile¶
- Offen und erweiterbar
Ein erweiterbarer verwalteter Service, der von Apache NiFi unterstützt wird, mit dem Sie Prozessoren von jeder Datenquelle zu jedem Ziel erstellen und erweitern können.
- Plattform für einheitliche Datenintegration
Openflow ermöglicht es Data Engineers, komplexe, bidirektionale Datenextraktion und -ladeoperationen über einen vollständig verwalteten Service durchzuführen, der in Ihrer eigenen VPC oder in Ihrer Snowflake-Bereitstellung bereitgestellt werden kann.
- Enterprise-fähig
Openflow bietet sofort einsatzbereite Hooks für Sicherheit, Compliance sowie Beobachtbarkeit und Wartbarkeit für die Datenintegration.
- Hochgeschwindigkeits-Datenaufnahme aller Arten von Daten
Mit einer vereinheitlichten Plattform können Sie strukturierte und unstrukturierte Daten sowohl im Batch- als auch im Streaming-Modus von Ihrer Datenquelle in Snowflake in praktisch jeder Größenordnung verarbeiten.
- Kontinuierliche Aufnahme von multidimensionalen Daten für die AI-Verarbeitung
Aufnahme von unstrukturierten Daten in nahezu Echtzeit, sodass Sie sofort mit Ihren Daten aus Quellen wie Sharepoint, Google Drive usw. kommunizieren können.
Openflow deployment types¶
Openflow wird sowohl in der Bring Your Own Cloud (BYOC)- als auch der Snowpark Container Services (SPCS)-Version unterstützt.
- Openflow - Snowflake Deployment
-
Openflow - Snowflake Deployment, using Snowpark Container Services (SPCS), provides a streamlined and integrated solution for connectivity. Because SPCS is a self-contained service within Snowflake, it’s easy to deploy and manage. SPCS offers a convenient and cost-effective environment for running your data flows. A key advantage of Openflow - Snowflake Deployment is its native integration with Snowflake’s security model, which allows for seamless authentication, authorization, network security and simplified operations.
Befolgen Sie bei der Konfiguration von Openflow - Snowflake Deployments die unter Openflow einrichten – Snowflake-Bereitstellung beschriebenen Schritte.
- Openflow - Bring Your Own Cloud
-
Openflow - Bring Your Own Cloud (BYOC) provides a connectivity solution that you can use to connect public and private systems securely and handle sensitive data preprocessing locally, within the secure bounds of your organization’s cloud environment. BYOC refers to a deployment option where the Openflow data processing engine, or data plane, runs within your own cloud environment while Snowflake manages the overall Openflow service and control plane.
Befolgen Sie bei der Konfiguration von BYOC-Bereitstellungen die unter Openflow einrichten – BYOC beschriebenen Schritte.
Anwendungsfälle¶
Verwenden Sie Openflow, wenn Sie Daten aus einer beliebigen Quelle abrufen und mit minimalem Verwaltungsaufwand an einem beliebigen Ziel bereitstellen möchten, gekoppelt mit der integrierten Datensicherheit und Governance von Snowflake.
Openflow-Anwendungsfälle umfassen:
Nehmen Sie Daten aus unstrukturierten Datenquellen wie Google Drive und Box auf und bereiten Sie sie mit Snowflake Cortex für den Chat in Ihren AI-Assistenten vor oder verwenden Sie die Daten für Ihre eigene benutzerdefinierte Verarbeitung.
Replizieren der Änderungsdatenerfassung (CDC) von Datenbanktabellen in Snowflake für umfassende, zentralisierte Berichte
Aufnahme von Echtzeitereignissen von Streaming-Diensten wie Apache Kafka in Snowflake, um Analysen nahezu in Echtzeit durchzuführen
Daten von SaaS-Plattformen wie LinkedIn Ads, in Snowflake für Berichterstattung, Analysen und Einblicke einlesen.
Einen Openflow-Datenfluss mit Snowflake and NiFi-Prozessoren und Controller-Services erstellen.
Sicherheit¶
Openflow verwendet branchenführende Sicherheits-Features, mit denen Sie ein Höchstmaß an Sicherheit für Ihr Konto und Ihre Benutzer sowie für alle in Snowflake gespeicherten Daten sicherstellen können. Zu den wichtigsten Aspekten zählen:
- Authentifizierung
Laufzeiten verwenden OAuth2 für die Authentifizierung bei Snowflake.
- Autorisierung
Openflow unterstützt fein abgestufte Rollen für RBAC.
ACCOUNTADMIN erteilt Berechtigungen, um Bereitstellungen und Laufzeiten erstellen zu können.
- Verschlüsselung während der Übertragung
Openflow-Konnektoren unterstützen das TLS-Protokoll, das Standard-Snowflake-Clients für die Datenerfassung verwendet.
Die gesamte Kommunikation zwischen den Openflow-Bereitstellungen und der Openflow-Steuerungsebene wird mit dem TLS-Protokoll verschlüsselt.
- Verwalten von Geheimnissen (BYOC)
Integration mit AWS Secrets Manager oder Hashicorp Vault. Weitere Informationen finden Sie unter Verschlüsselte Kennwörter in Konfigurationsdateien.
- Unterstützung für private Links
Openflow-Konnektoren sind mit dem Lesen und Schreiben von Daten in Snowflake über den eingehenden AWS PrivateLink kompatibel.
- Tri-Secret Secure-Unterstützung
Openflow-Konnektoren sind kompatibel mit Tri-Secret Secure zum Schreiben von Daten in Snowflake.
Architektur¶
Das folgende Diagramm veranschaulicht die Architektur von Openflow:
Der Bereitstellungsagent installiert und bootstrappt die Openflow-Bereitstellungsinfrastruktur in Ihrer VPC und synchronisiert regelmäßig Container-Images aus der System-Image-Registry von Snowflake.
Zu den Openflow-Komponenten gehören:
- Bereitstellungen
In einer Bereitstellung werden Ihre Datenläufe innerhalb einzelner Laufzeiten ausgeführt. Sie haben oft mehrere Laufzeitumgebungen, um verschiedene Projekte, Teams oder zu isolieren oder aus SDLC-Gründen, die alle mit einer einzigen Bereitstellung verbunden sind. Es gibt zwei Arten von Bereitstellungen: Integrieren Ihrer eigenen Cloud (BYOC) und Openflow – Snowflake.
- Steuerungsebene
Die Control Plane ist eine Schicht, die alle Komponenten enthält, die zur Verwaltung und Überwachung der Openflow-Laufzeitumgebungen verwendet werden. Dazu gehören der Openflow-Service und die API, mit denen Benutzer über die Openflow-Oberfläche oder durch Interaktion mit Openflow APIs interagieren. In Openflow - Snowflake Deployments besteht die Control Plane aus Snowflake-eigener öffentlicher Cloud-Infrastruktur und -Services sowie aus der Steuerebene selbst.
- BYOC-Bereitstellungen
BYOC-Bereitstellungen sind Bereitstellungen, die als Laufzeit-Container fungieren, die in Ihrer Cloudumgebung bereitgestellt werden. Für sie fallen Gebühren auf Basis der Nutzung von Compute, Infrastruktur und Speichernutzung an. Weitere Informationen dazu finden Sie unter Openflow: BYOC-Kosten und Überlegungen zur Skalierung.
- Openflow - Snowflake Deployments
Openflow – Snowflake-Bereitstellungen sind Container für Laufzeiten und werden mithilfe eines Computepools bereitgestellt. Für sie fallen Nutzungskosten an, die sich nach ihrer Betriebszeit und Nutzung der Computeressourcen richten. Siehe Hinweise zu Kosten für Openflow Snowflake-Bereitstellungen und zur Skalierung für weitere Informationen.
- Laufzeit
Laufzeitumgebungen hosten Ihre Datenpipelines, wobei das Framework Sicherheit, Einfachheit und Skalierbarkeit bietet. Sie können Openflow-Laufzeitumgebungen mit Openflow in Ihrer VPC bereitstellen. Sie können Openflow-Konnektoren für Ihre Laufzeitumgebungen bereitstellen und auch völlig neue Pipelines mit Openflow-Prozessoren und -Controller-Services erstellen.
- Openflow - Snowflake Deployment-Laufzeit
Openflow – Snowflake-Bereitstellungslaufzeiten werden als Snowpark Container Services für eine Openflow - Snowflake Deployment-Bereitstellung bereitgestellt, die durch einen zugrunde liegenden Computepool repräsentiert wird. Kunden fordern eine Laufzeit über die Bereitstellung an, die im Namen des Benutzers eine Anforderung an den Service ausführt. Einmal erstellt, können Kunden über einen Webbrowser unter der URL darauf zugreifen, die für diesen zugrunde liegenden Service generiert wurde.
