Über Openflow

Snowflake Openflow ist ein Integrationsdienst, der beliebige Datenquellen mit beliebigen Zielsystemen verbindet – mit Hunderten von Prozessoren, die strukturierte und unstrukturierte Daten wie Text, Bilder, Audio, Video und Sensordaten verarbeiten. Openflow basiert auf Apache NiFi und ermöglicht Ihnen, einen vollständig verwalteten Dienst in Ihrer eigenen Cloud zu betreiben und so die volle Kontrolle zu behalten.

Bemerkung

Die Openflow-Plattform ist derzeit für den Einsatz in der kundeneigenen VPC unter AWS verfügbar.

Unter diesem Thema werden die wichtigsten Features, die Vorteile, die Architektur und der Workflow sowie Anwendungsfälle von Openflow beschrieben.

Wichtigste Features und Vorteile

  • Offen und erweiterbar: Ein erweiterbarer verwalteter Dienst, der auf Apache NiFi basiert und Ihnen ermöglicht, Prozessoren von jeder Datenquelle zu jedem Zielsystem zu erstellen und zu erweitern.

  • Einheitliche Datenintegrationsplattform: Openflow ermöglicht es Data Engineers, komplexe, bidirektionale ETL-Prozesse über einen vollständig verwalteten Dienst zu verarbeiten, der innerhalb der kundeneigenen VPC in der Cloud oder lokal eingesetzt werden kann.

  • Bereit für den Einsatz in Unternehmen: Openflow bietet sofort einsatzbereite Funktionen für Sicherheit, Compliance, Beobachtbarkeit und Wartung für die Datenintegration.

  • Schnelle Aufnahme aller Datentypen: Eine einheitliche Plattform, mit der Sie strukturierte und unstrukturierte Daten sowohl im Batch- als auch im Streaming-Modus von Ihrer Datenquelle in nahezu jeder Größenordnung in Snowflake verarbeiten können.

  • Kontinuierliche Aufnahme von multimodalen Daten für AI-Verarbeitung: Unstrukturierte Daten werden nahezu in Echtzeit aufgenommen, sodass Sie sofort mit Ihren Daten aus Quellen wie SharePoint, Google Drive usw. chatten können.

Architektur

Das folgende Diagramm veranschaulicht die Architektur von Openflow:

Openflow-Architektur

Der Bereitstellungsagent installiert und initialisiert die Openflow-Bereitstellungsinfrastruktur in Ihrer VPC und synchronisiert regelmäßig Container-Images aus der Snowflake System Image Registry.

Zu den Komponenten von Openflow gehören unter anderem:

  • Bereitstellung: Eine Bereitstellung ist der Ort, an dem Ihre Datenflüsse innerhalb einzelner Laufzeiten ausgeführt werden. Häufig werden mehrere Laufzeiten genutzt, um verschiedene Projekte, Teams oder SDLC-Anforderungen voneinander zu isolieren – alle sind dabei einer einzigen Bereitstellung zugeordnet.

  • Laufzeit: Laufzeiten hosten Ihre Datenpipelines, wobei das Framework für Sicherheit, Einfachheit und Skalierbarkeit sorgt. Sie können Openflow-Laufzeiten in Ihrer VPC mit Openflow einsetzen. Sie können Openflow-Konnektoren für Ihre Laufzeiten bereitstellen und auch neue Pipelines von Grund auf mit Openflow-Prozessoren und Controller-Diensten erstellen.

  • Steuerebene: Die Steuerebene ist eine Schicht in der Architektur, die alle Komponenten enthält, die zur Verwaltung und Beobachtung verwendet werden, einschließlich Openflow-Dienst und der API, mit denen die Benutzer über die Openflow-UI oder durch direkte Interaktion mit Openflow-APIs interagieren.

Workflow

Benutzer-Persona

Aufgabe

AWS-Cloud-Ingenieur/-Administrator

Erstellt eine Reihe von Bereitstellungen in ihrem AWS-Cloud-Konto.

Die Openflow-UI wird für die Verwaltung von Bereitstellungen und die Erstellung und Pflege von Laufzeiten verwendet. Mit der Openflow-UI können Benutzer Laufzeiten in allen Bereitstellungen erstellen, in der Größe verändern, aktualisieren und löschen.

Snowflake-Anmeldungen werden zur Authentifizierung bei Openflow verwendet, und Rollen und Berechtigungen dienen zur Kontrolle des Zugriffs auf Openflow-Bereitstellungen und -Laufzeiten.

Data Engineer (Pipeline-Autor, verantwortlich für die Datenaufnahme)

Verwendet das Laufzeit-Canvas, um Abläufe von Grund auf neu zu erstellen oder um eingesetzte Konnektoren zu konfigurieren.

Erstellt einen neuen Ablauf von Grund auf oder verwendet einen vorhandenen Konnektor als Ausgangspunkt für die Anpassung. Füllt Daten in der Bronzeschicht in Ihrem Snowflake-Konto (oder einem anderen Zielsystem) auf.

Konnektoren sind ein einfacher Weg, um einen bestimmten Integrationsanwendungsfall zu lösen. Auch technisch weniger versierte Benutzer können sie bereitstellen, ohne dass zwingend ein Data Engineer erforderlich ist.

Data Engineer (Pipeline-Betreiber)

Konfiguriert die Ablaufparameter und führt den Ablauf aus

Data Engineer (verantwortlich für die Umwandlung in Silber- und Goldschichten)

Verantwortlich für die Umwandlung von Daten aus der Bronzeschicht, die von der Pipeline gefüllt wurde, in die Silber- und Goldschichten für Analysen.

Geschäftssanwender

Verwendet Objekte der Goldschicht für Analysen

Anwendungsfälle

Verwenden Sie Openflow, wenn Sie Daten aus einer beliebigen Quelle abrufen und mit minimalem Verwaltungsaufwand an einem beliebigen Zielort ablegen möchten, und zwar in Verbindung mit der in Snowflake integrierten Datensicherheit und Data Governance.

Einige der Anwendungsfälle von Openflow sind wie folgt:

  • Nehmen Sie Daten aus unstrukturierten Datenquellen wie Google Drive und Box auf und bereiten Sie sie mit Snowflake Cortex für den Chat in Ihren AI-Assistenten vor oder verwenden Sie die Daten für Ihre eigene benutzerdefinierte Verarbeitung.

  • Replizieren der Änderungsdatenerfassung (CDC) von Datenbanktabellen in Snowflake für umfassende, zentralisierte Berichte

  • Aufnahme von Echtzeitereignissen von Streaming-Diensten wie Apache Kafka in Snowflake, um Analysen nahezu in Echtzeit durchzuführen

  • Aufnahme von Daten aus SaaS-Plattformen, wie LinkedIn-Ads, in Snowflake, um Berichte, Analysen und Einblicke zu erhalten

  • Datenfluss mit Openflow erstellen mit Snowflake und NiFi Prozessoren und Controllern.

Sicherheit

Openflow verwendet branchenführende Sicherheitsfeatures, die Ihnen ein Höchstmaß an Sicherheit für Ihr Konto und Ihre Benutzer sowie für alle Daten, die Sie in Snowflake speichern, bieten. Einige wichtige Aspekte sind:

  • Authentifizierung

    • Laufzeiten verwenden OAuth2 für die Authentifizierung bei Snowflake.

  • Autorisierung

    • Openflow unterstützt fein abgestufte Rollen für RBAC.

    • ACCOUNTADMIN erteilt Berechtigungen, um Bereitstellungen und Laufzeiten erstellen zu können.

  • Verschlüsselung während der Übertragung

    • Openflow-Konnektoren unterstützen das TLS-Protokoll und verwenden Standard-Snowflake-Clients für die Dateneingabe.

    • Die gesamte Kommunikation zwischen den Openflow-Bereitstellungen und der Openflow-Steuerebene wird mit dem TLS-Protokoll verschlüsselt.

  • Verwalten von Geheimnissen (BYOC)

  • Unterstützung für private Links

    • Openflow-Konnektoren sind kompatibel mit dem Lesen und Schreiben von Daten in Snowflake über eingehenden AWS PrivateLink

  • Tri-Secret Secure-Unterstützung

    • Openflow-Konnektoren sind kompatibel mit Tri-Secret Secure zum Schreiben von Daten in Snowflake.

Regionale Verfügbarkeit

Openflow ist für alle Konten in AWS Kommerzielle Regionen verfügbar. Openflow ist in Regionen für Regierungsbehörden nicht verfügbar.

Einschränkungen

  • Wie in den Snowflake Openflow BYOC-Bedingungen beschrieben, ist die Sicherung von Openflow BYOC ein Modell der gemeinsamen Verantwortung.

  • Die Openflow-Autorisierung verwendet Rollen und die damit verbundenen Berechtigungen, die dem Benutzer direkt zugewiesen werden. Derzeit unterstützt Openflow keine Autorisierung, wenn die Rolle mit einer anderen Rolle innerhalb der Rollenhierarchie des Benutzers verbunden ist.

Nächster Schritt

Openflow einrichten