Über Openflow

Snowflake Openflow ist ein Integrationsdienst, der beliebige Datenquellen mit beliebigen Zielsystemen verbindet – mit Hunderten von Prozessoren, die strukturierte und unstrukturierte Daten wie Text, Bilder, Audio, Video und Sensordaten verarbeiten. Openflow basiert auf Apache NiFi und ermöglicht Ihnen, einen vollständig verwalteten Dienst in Ihrer eigenen Cloud zu betreiben und so die volle Kontrolle zu behalten.

Bemerkung

Die Openflow-Plattform ist derzeit für die Bereitstellung in den eigenen VPCs der Kunden in beiden AWS und Snowpark Container Services verfügbar.

Dieses Thema beschreibt die wichtigsten Features von Openflow, seine Vorteile, die Architektur und den Workflow sowie die Anwendungsfälle.

Wichtigste Features und Vorteile

Offen und erweiterbar

Ein erweiterbarer verwalteter Service, der von Apache NiFi unterstützt wird, mit dem Sie Prozessoren von jeder Datenquelle zu jedem Ziel erstellen und erweitern können.

Plattform für einheitliche Datenintegration

Openflow ermöglicht es Data Engineers, komplexe, bidirektionale Datenextraktion und -ladeoperationen über einen vollständig verwalteten Service durchzuführen, der in Ihrer eigenen VPC oder in Ihrer Snowflake-Bereitstellung bereitgestellt werden kann.

Enterprise-fähig

Openflow bietet sofort einsatzbereite Hooks für Sicherheit, Compliance sowie Beobachtbarkeit und Wartbarkeit für die Datenintegration.

Hochgeschwindigkeits-Datenaufnahme aller Arten von Daten

Mit einer vereinheitlichten Plattform können Sie strukturierte und unstrukturierte Daten sowohl im Batch- als auch im Streaming-Modus von Ihrer Datenquelle in Snowflake in praktisch jeder Größenordnung verarbeiten.

Kontinuierliche Aufnahme von multidimensionalen Daten für die AI-Verarbeitung

Aufnahme von unstrukturierten Daten in nahezu Echtzeit, sodass Sie sofort mit Ihren Daten aus Quellen wie Sharepoint, Google Drive usw. kommunizieren können.

Openflow - Snowflake Deployment-Modelle

Openflow wird sowohl in der Bring Your Own Cloud (BYOC)- als auch der Snowpark Container Services (SPCS)-Version unterstützt.

Openflow - Snowflake Deployment (SPCS)

|OFSFSPCS|mit :doc:`/developer-guide/snowpark-container-services/overview` (SPCS) bietet eine optimierte und integrierte Lösung für Konnektivität. Weil SPCS ein in sich geschlossener Service innerhalb von Snowflake ist, der einfach bereitzustellen und zu verwalten ist und eine praktische und kostengünstige Umgebung für die Ausführung Ihrer Datenströme bietet. Ein entscheidender Vorteil von |OFSFSPCS| ist die native Integration mit dem Sicherheitsmodell von Snowflake, was eine nahtlose Authentifizierung, Autorisierung und Netzwerksicherheit sowie vereinfachte Operationen ermöglicht.

Befolgen Sie bei der Konfiguration von Openflow - Snowflake Deployments die unter Openflow einrichten – Snowflake-Bereitstellung beschriebenen Schritte.

Openflow BYOC

Openflow Bring Your Own Cloud (BYOC) bietet eine Konnektivitätslösung, mit der Sie öffentliche und private Systeme sicher verbinden und die Vorverarbeitung sensibler Daten lokal innerhalb der sicheren Grenzen der Cloudumgebung Ihrer Organisation verwalten können. BYOC bezieht sich auf eine Bereitstellungsoption, bei der die Openflow-Datenverarbeitungs-Engine oder -Datenebene innerhalb Ihrer eigenen Cloudumgebung ausgeführt wird, während Snowflake den gesamten Openflow-Service und die Steuerungsebene verwaltet.

Befolgen Sie bei der Konfiguration von BYOC-Bereitstellungen die unter Openflow einrichten – BYOC beschriebenen Schritte.

Anwendungsfälle

Verwenden Sie Openflow, wenn Sie Daten aus einer beliebigen Quelle abrufen und mit minimalem Verwaltungsaufwand an einem beliebigen Ziel bereitstellen möchten, gekoppelt mit der integrierten Datensicherheit und Governance von Snowflake.

Openflow-Anwendungsfälle umfassen:

  • Nehmen Sie Daten aus unstrukturierten Datenquellen wie Google Drive und Box auf und bereiten Sie sie mit Snowflake Cortex für den Chat in Ihren AI-Assistenten vor oder verwenden Sie die Daten für Ihre eigene benutzerdefinierte Verarbeitung.

  • Replizieren der Änderungsdatenerfassung (CDC) von Datenbanktabellen in Snowflake für umfassende, zentralisierte Berichte

  • Aufnahme von Echtzeitereignissen von Streaming-Diensten wie Apache Kafka in Snowflake, um Analysen nahezu in Echtzeit durchzuführen

  • Daten von SaaS-Plattformen wie LinkedIn Ads, in Snowflake für Berichterstattung, Analysen und Einblicke einlesen.

  • Einen Openflow-Datenfluss mit Snowflake and NiFi-Prozessoren und Controller-Services erstellen.

Sicherheit

Openflow verwendet branchenführende Sicherheits-Features, mit denen Sie ein Höchstmaß an Sicherheit für Ihr Konto und Ihre Benutzer sowie für alle in Snowflake gespeicherten Daten sicherstellen können. Zu den wichtigsten Aspekten zählen:

Authentifizierung
  • Laufzeiten verwenden OAuth2 für die Authentifizierung bei Snowflake.

Autorisierung
  • Openflow unterstützt fein abgestufte Rollen für RBAC.

  • ACCOUNTADMIN erteilt Berechtigungen, um Bereitstellungen und Laufzeiten erstellen zu können.

Verschlüsselung während der Übertragung
  • Openflow-Konnektoren unterstützen das TLS-Protokoll, das Standard-Snowflake-Clients für die Datenerfassung verwendet.

  • Die gesamte Kommunikation zwischen den Openflow-Bereitstellungen und der Openflow-Steuerungsebene wird mit dem TLS-Protokoll verschlüsselt.

Verwalten von Geheimnissen (BYOC)
Unterstützung für private Links
  • Openflow-Konnektoren sind mit dem Lesen und Schreiben von Daten in Snowflake über den eingehenden AWS PrivateLink kompatibel.

Tri-Secret Secure-Unterstützung
  • Openflow-Konnektoren sind kompatibel mit Tri-Secret Secure zum Schreiben von Daten in Snowflake.

Architektur

Das folgende Diagramm veranschaulicht die Architektur von Openflow:

Openflow-Architektur

Der Bereitstellungsagent installiert und bootstrappt die Openflow-Bereitstellungsinfrastruktur in Ihrer VPC und synchronisiert regelmäßig Container-Images aus der System-Image-Registry von Snowflake.

Zu den Openflow-Komponenten gehören:

Bereitstellung

In einer Bereitstellung werden Ihre Datenläufe innerhalb einzelner Laufzeiten ausgeführt. Sie haben oft mehrere Laufzeitumgebungen, um verschiedene Projekte, Teams oder zu isolieren oder aus SDLC-Gründen, die alle mit einer einzigen Bereitstellung verbunden sind.

Steuerungsebene

Die Steuerungsebene ist eine Schicht in der Architektur, die alle Komponenten enthält, die zur Verwaltung und Beobachtung verwendet werden, einschließlich des Openflow-Service und der API, mit der Benutzer über die Openflow-UI oder durch direkte Interaktion mit Openflow-APIs interagieren. Bei Openflow-Snowflake-Bereitstellungen besteht die Steuerungsebene (CP) aus Snowflake-eigenen öffentlich Cloudinfrastrukturen/Services und der Anwendung der Steuerungsebene selbst.

Openflow - Snowflake Deployment

Openflow - Snowflake Deployment-Services werden mit einem SPCS-Computepool bereitgestellt und verursachen Nutzungskosten, die auf ihrer Verfügbarkeit und Nutzung der Computeressourcen basieren. Weitere Informationen dazu finden Sie unter Hinweise zu Kosten für Openflow Snowflake-Bereitstellungen und zur Skalierung.

Laufzeit

Laufzeitumgebungen hosten Ihre Datenpipelines, wobei das Framework Sicherheit, Einfachheit und Skalierbarkeit bietet. Sie können Openflow-Laufzeitumgebungen mit Openflow in Ihrer VPC bereitstellen. Sie können Openflow-Konnektoren für Ihre Laufzeitumgebungen bereitstellen und auch völlig neue Pipelines mit Openflow-Prozessoren und -Controller-Services erstellen.

Openflow - Snowflake Deployment-Laufzeit

Eine Openflow - Snowflake Deployment-Laufzeitumgebung wird als ein Openflow - Snowflake Deployment-Service in einer Openflow - Snowflake Deployment-Bereitstellung bereitgestellt, dargestellt durch einen zugrunde liegenden Computepool. Kunden fordern eine Laufzeit-Openflow - Snowflake Deployment über die Bereitstellung, die im Namen des Benutzers eine Anforderung an Service ausführt. Einmal erstellt, können Kunden über einen Webbrowser unter der URL darauf zugreifen, die für diesen konkreten Openflow - Snowflake Deployment-Dienst generiert wurde.