Über Openflow

Snowflake Openflow ist ein Integrationsdienst, der beliebige Datenquellen mit beliebigen Zielsystemen verbindet – mit Hunderten von Prozessoren, die strukturierte und unstrukturierte Daten wie Text, Bilder, Audio, Video und Sensordaten verarbeiten. Openflow basiert auf Apache NiFi und ermöglicht Ihnen, einen vollständig verwalteten Dienst in Ihrer eigenen Cloud zu betreiben und so die volle Kontrolle zu behalten.

Bemerkung

Die Openflow-Plattform ist derzeit für die Bereitstellung in den eigenen VPCs der Kunden in beiden AWS und Snowpark Container Services verfügbar.

Dieses Thema beschreibt die wichtigsten Features von Openflow, seine Vorteile, die Architektur und den Workflow sowie die Anwendungsfälle.

Wichtigste Features und Vorteile

Offen und erweiterbar

Ein erweiterbarer verwalteter Service, der von Apache NiFi unterstützt wird, mit dem Sie Prozessoren von jeder Datenquelle zu jedem Ziel erstellen und erweitern können.

Plattform für einheitliche Datenintegration

Openflow ermöglicht es Data Engineers, komplexe, bidirektionale Datenextraktion und -ladeoperationen über einen vollständig verwalteten Service durchzuführen, der in Ihrer eigenen VPC oder in Ihrer Snowflake-Bereitstellung bereitgestellt werden kann.

Enterprise-fähig

Openflow bietet sofort einsatzbereite Hooks für Sicherheit, Compliance sowie Beobachtbarkeit und Wartbarkeit für die Datenintegration.

Hochgeschwindigkeits-Datenaufnahme aller Arten von Daten

Mit einer vereinheitlichten Plattform können Sie strukturierte und unstrukturierte Daten sowohl im Batch- als auch im Streaming-Modus von Ihrer Datenquelle in Snowflake in praktisch jeder Größenordnung verarbeiten.

Kontinuierliche Aufnahme von multidimensionalen Daten für die AI-Verarbeitung

Aufnahme von unstrukturierten Daten in nahezu Echtzeit, sodass Sie sofort mit Ihren Daten aus Quellen wie Sharepoint, Google Drive usw. kommunizieren können.

Openflow deployment types

Openflow wird sowohl in der Bring Your Own Cloud (BYOC)- als auch der Snowpark Container Services (SPCS)-Version unterstützt.

Openflow - Snowflake Deployment

Openflow - Snowflake Deployment, using Snowpark Container Services (SPCS), provides a streamlined and integrated solution for connectivity. Because SPCS is a self-contained service within Snowflake, it’s easy to deploy and manage. SPCS offers a convenient and cost-effective environment for running your data flows. A key advantage of Openflow - Snowflake Deployment is its native integration with Snowflake’s security model, which allows for seamless authentication, authorization, network security and simplified operations.

Befolgen Sie bei der Konfiguration von Openflow - Snowflake Deployments die unter Openflow einrichten – Snowflake-Bereitstellung beschriebenen Schritte.

Openflow - Bring Your Own Cloud

Openflow - Bring Your Own Cloud (BYOC) provides a connectivity solution that you can use to connect public and private systems securely and handle sensitive data preprocessing locally, within the secure bounds of your organization’s cloud environment. BYOC refers to a deployment option where the Openflow data processing engine, or data plane, runs within your own cloud environment while Snowflake manages the overall Openflow service and control plane.

Befolgen Sie bei der Konfiguration von BYOC-Bereitstellungen die unter Openflow einrichten – BYOC beschriebenen Schritte.

Anwendungsfälle

Verwenden Sie Openflow, wenn Sie Daten aus einer beliebigen Quelle abrufen und mit minimalem Verwaltungsaufwand an einem beliebigen Ziel bereitstellen möchten, gekoppelt mit der integrierten Datensicherheit und Governance von Snowflake.

Openflow-Anwendungsfälle umfassen:

  • Nehmen Sie Daten aus unstrukturierten Datenquellen wie Google Drive und Box auf und bereiten Sie sie mit Snowflake Cortex für den Chat in Ihren AI-Assistenten vor oder verwenden Sie die Daten für Ihre eigene benutzerdefinierte Verarbeitung.

  • Replizieren der Änderungsdatenerfassung (CDC) von Datenbanktabellen in Snowflake für umfassende, zentralisierte Berichte

  • Aufnahme von Echtzeitereignissen von Streaming-Diensten wie Apache Kafka in Snowflake, um Analysen nahezu in Echtzeit durchzuführen

  • Daten von SaaS-Plattformen wie LinkedIn Ads, in Snowflake für Berichterstattung, Analysen und Einblicke einlesen.

  • Einen Openflow-Datenfluss mit Snowflake and NiFi-Prozessoren und Controller-Services erstellen.

Sicherheit

Openflow verwendet branchenführende Sicherheits-Features, mit denen Sie ein Höchstmaß an Sicherheit für Ihr Konto und Ihre Benutzer sowie für alle in Snowflake gespeicherten Daten sicherstellen können. Zu den wichtigsten Aspekten zählen:

Authentifizierung
  • Laufzeiten verwenden OAuth2 für die Authentifizierung bei Snowflake.

Autorisierung
  • Openflow unterstützt fein abgestufte Rollen für RBAC.

  • ACCOUNTADMIN erteilt Berechtigungen, um Bereitstellungen und Laufzeiten erstellen zu können.

Verschlüsselung während der Übertragung
  • Openflow-Konnektoren unterstützen das TLS-Protokoll, das Standard-Snowflake-Clients für die Datenerfassung verwendet.

  • Die gesamte Kommunikation zwischen den Openflow-Bereitstellungen und der Openflow-Steuerungsebene wird mit dem TLS-Protokoll verschlüsselt.

Verwalten von Geheimnissen (BYOC)
Unterstützung für private Links
  • Openflow-Konnektoren sind mit dem Lesen und Schreiben von Daten in Snowflake über den eingehenden AWS PrivateLink kompatibel.

Tri-Secret Secure-Unterstützung
  • Openflow-Konnektoren sind kompatibel mit Tri-Secret Secure zum Schreiben von Daten in Snowflake.

Architektur

Das folgende Diagramm veranschaulicht die Architektur von Openflow:

Openflow-Architektur

Der Bereitstellungsagent installiert und bootstrappt die Openflow-Bereitstellungsinfrastruktur in Ihrer VPC und synchronisiert regelmäßig Container-Images aus der System-Image-Registry von Snowflake.

Zu den Openflow-Komponenten gehören:

Bereitstellungen

In einer Bereitstellung werden Ihre Datenläufe innerhalb einzelner Laufzeiten ausgeführt. Sie haben oft mehrere Laufzeitumgebungen, um verschiedene Projekte, Teams oder zu isolieren oder aus SDLC-Gründen, die alle mit einer einzigen Bereitstellung verbunden sind. Es gibt zwei Arten von Bereitstellungen: Integrieren Ihrer eigenen Cloud (BYOC) und Openflow – Snowflake.

Steuerungsebene

Die Control Plane ist eine Schicht, die alle Komponenten enthält, die zur Verwaltung und Überwachung der Openflow-Laufzeitumgebungen verwendet werden. Dazu gehören der Openflow-Service und die API, mit denen Benutzer über die Openflow-Oberfläche oder durch Interaktion mit Openflow APIs interagieren. In Openflow - Snowflake Deployments besteht die Control Plane aus Snowflake-eigener öffentlicher Cloud-Infrastruktur und -Services sowie aus der Steuerebene selbst.

BYOC-Bereitstellungen

BYOC-Bereitstellungen sind Bereitstellungen, die als Laufzeit-Container fungieren, die in Ihrer Cloudumgebung bereitgestellt werden. Für sie fallen Gebühren auf Basis der Nutzung von Compute, Infrastruktur und Speichernutzung an. Weitere Informationen dazu finden Sie unter Openflow: BYOC-Kosten und Überlegungen zur Skalierung.

Openflow - Snowflake Deployments

Openflow – Snowflake-Bereitstellungen sind Container für Laufzeiten und werden mithilfe eines Computepools bereitgestellt. Für sie fallen Nutzungskosten an, die sich nach ihrer Betriebszeit und Nutzung der Computeressourcen richten. Siehe Hinweise zu Kosten für Openflow Snowflake-Bereitstellungen und zur Skalierung für weitere Informationen.

Laufzeit

Laufzeitumgebungen hosten Ihre Datenpipelines, wobei das Framework Sicherheit, Einfachheit und Skalierbarkeit bietet. Sie können Openflow-Laufzeitumgebungen mit Openflow in Ihrer VPC bereitstellen. Sie können Openflow-Konnektoren für Ihre Laufzeitumgebungen bereitstellen und auch völlig neue Pipelines mit Openflow-Prozessoren und -Controller-Services erstellen.

Openflow - Snowflake Deployment-Laufzeit

Openflow – Snowflake-Bereitstellungslaufzeiten werden als Snowpark Container Services für eine Openflow - Snowflake Deployment-Bereitstellung bereitgestellt, die durch einen zugrunde liegenden Computepool repräsentiert wird. Kunden fordern eine Laufzeit über die Bereitstellung an, die im Namen des Benutzers eine Anforderung an den Service ausführt. Einmal erstellt, können Kunden über einen Webbrowser unter der URL darauf zugreifen, die für diesen zugrunde liegenden Service generiert wurde.