A propos d’Openflow¶
Snowflake Openflow est un service d’intégration qui connecte n’importe quelle source de données et n’importe quelle destination avec des centaines de processeurs prenant en charge les données textuelles structurées et non structurées, les images, l’audio, la vidéo et les données de capteurs. Basé sur Apache NiFi, Openflow vous permet d’exploiter un service entièrement géré dans votre propre Cloud pour un contrôle total.
Note
La plateforme Openflow est actuellement disponible pour le déploiement dans les propres VPCs des clients, à la fois dans AWS et Snowpark Container Services.
Cette rubrique décrit les principales fonctionnalités d’Openflow, ses avantages, son architecture, son workflow et ses cas d’utilisation.
Fonctions clés et avantages¶
- Ouvert et extensible
Un service géré extensible alimenté par Apache NiFi, qui vous permet de créer et de développer des processeurs à partir de n’importe quelle source de données vers n’importe quelle destination.
- Plateforme unifiée d’intégration des données
Openflow permet aux ingénieurs de données de traiter des extractions et des chargements de données bidirectionnels complexes grâce à un service entièrement géré qui peut être déployé au sein de votre propre VPC ou au sein de votre déploiement Snowflake.
- Prêt pour l’entreprise
Openflow offre dès l’installation des mécanismes intégrés de sécurité, de conformité, d’observabilité et de maintenabilité pour l’intégration des données.
- Ingestion haute vitesse de tous les types de données
Une plateforme unifiée vous permet de gérer des données structurées et non structurées, en mode streaming et en lot, depuis votre source de données vers Snowflake, à quasiment toutes les échelles.
- Ingestion continue de données multimodales pour le traitement d’AI
Ingestion des données non structurées quasiment en temps réel pour vous permettre de discuter immédiatement avec vos données provenant de sources comme Sharepoint, Google Drive, etc.
Openflow deployment types¶
Openflow est pris en charge à la fois dans les versions Bring Your Own Cloud (BYOC) et Snowpark Container Services (SPCS).
- Openflow - Snowflake Deployment
-
Openflow - Snowflake Deployment, using Snowpark Container Services (SPCS), provides a streamlined and integrated solution for connectivity. Because SPCS is a self-contained service within Snowflake, it’s easy to deploy and manage. SPCS offers a convenient and cost-effective environment for running your data flows. A key advantage of Openflow - Snowflake Deployment is its native integration with Snowflake’s security model, which allows for seamless authentication, authorization, network security and simplified operations.
Lors de la configuration de Openflow - Snowflake Deployments, suivez le processus indiqué dans Configurer Openflow - Déploiement Snowflake.
- Openflow - Bring Your Own Cloud
-
Openflow - Bring Your Own Cloud (BYOC) provides a connectivity solution that you can use to connect public and private systems securely and handle sensitive data preprocessing locally, within the secure bounds of your organization’s cloud environment. BYOC refers to a deployment option where the Openflow data processing engine, or data plane, runs within your own cloud environment while Snowflake manages the overall Openflow service and control plane.
Lors de la configuration de déploiements BYOC, suivez le processus comme indiqué dans Configuration d’Openflow - BYOC.
Cas d’utilisation¶
Utilisez Openflow si vous souhaitez récupérer des données depuis n’importe quelle source et les envoyer vers n’importe quelle destination avec une gestion minimale, couplée à la sécurité et à la gouvernance des données intégrées de Snowflake.
Les cas d’utilisation d’Openflow incluent :
Ingérer des données à partir de sources de données non structurées, telles que Google Drive et Box, et les rendre prêtes pour le chat dans vos assistants AI avec Snowflake Cortex ou utiliser les données pour votre propre traitement personnalisé.
Répliquez la capture des données de changement (CDC) des tables de base de données dans Snowflake pour une réplication complète et centralisée.
Ingérer des événements en temps réel à partir de services de flux, tels qu’Apache Kafka, dans Snowflake pour des analyses en temps quasi réel.
Ingérer des données depuis des plateformes SaaS comme LinkedIn Ads vers Snowflake pour la création de rapports, les analyses et de les insights.
Créer un flux de données Openflow à l’aide de Snowflake et des processeurs et services de contrôleur<controllers/index> NiFi.
Sécurité¶
Snowflake utilise des fonctionnalités de sécurité de pointe qui vous assurent les plus hauts niveaux de sécurité pour votre compte, vos utilisateurs et toutes les données que vous stockez dans Snowflake. Voici quelques aspects clés :
- Authentification
Les exécutions utilisent l’OAuth2 pour l’authentification auprès de Snowflake.
- Autorisation
Openflow prend en charge des rôles à granularité fine pour RBAC
ACCOUNTADMIN pour accorder des privilèges pour pouvoir créer des déploiements et des environnements d’exécution
- Chiffrement en transit
Les connecteurs Openflow prennent en charge le protocole TLS, en utilisant des clients Snowflake standard pour l’ingestion des données.
Toutes les communications entre les déploiements Openflow et le plan de contrôle Openflow sont chiffrées à l’aide du protocole TLS.
- Gestion des secrets (BYOC)
Intégration avec AWS Secrets Manager ou Hashicorp Vault. Pour plus d’informations, voir Mots de passe chiffrés dans les fichiers de configuration.
- Support pour les liens privés
Les connecteurs Openflow sont compatibles avec la lecture et l’écriture de données dans Snowflake à l’aide d’une connexion PrivateLink AWS entrante.
- Tri-Secret Secure support
Le connecteur Openflow est compatible avec Tri-Secret Secure pour l’écriture des données sur Snowflake.
Architecture¶
Le diagramme suivant illustre l’architecture Openflow :
L’agent de déploiement installe et démarre l’infrastructure de déploiement Openflow dans votre VPC et synchronise régulièrement les images de conteneurs à partir du registre d’images du système Snowflake.
Les composants Openflow comprennent :
- Déploiements
Un déploiement est l’endroit où vos flux de données s’exécutent, dans des exécutions individuelles. Vous aurez souvent plusieurs environnements d’exécution pour isoler différents projets, équipes ou pour des raisons de SDLC, le tout associé à un seul déploiement. Les déploiements existent en deux types :doc:` Bring Your Own Cloud (BYOC) </user-guide/data-integration/openflow/about-byoc>` et Openflow - Snowflake.
- Plan de contrôle
Le plan de contrôle est une couche contenant tous les composants utilisés pour gérer et observer les environnements d’exécution Openflow. Il inclut le service et l’API, avec lesquels les utilisateurs interagissent via le canevas Openflow ou via l’interaction avec les APIs Openflow. Sur Openflow - Snowflake Deployments, le plan de contrôle se compose d’une infrastructure et de services Cloud publics appartenant à Snowflake, ainsi que de l’application de plan de contrôle elle-même.
- Déploiements BYOC
Les déploiements BYOC sont des déploiements qui servent de conteneurs pour des environnements d’exécution qui sont déployés dans votre environnement Cloud. Ils encourent des frais en fonction de leur utilisation du calcul, de l’infrastructure et du stockage. Voir Considérations relatives aux coûts et à la mise à l’échelle d’Openflow BYOC pour plus d’informations.
- Openflow - Snowflake Deployments
Les déploiements Openflow - Snowflake sont des conteneurs pour les environnements d’exécution et sont déployés à l’aide d’un pool de calcul. Des frais d’utilisation sont facturés en fonction de leur temps de fonctionnement et de leur utilisation du calcul. Voir Considérations relatives aux coûts et à la mise à l’échelle des déploiements Openflow Snowflake pour plus d’informations.
- Temps d’exécution
Les :emph:`environnements d’exécution`hébergent vos pipelines de données, le framework assurant sécurité, simplicité et évolutivité. Vous pouvez déployer des exécutions Openflow dans votre VPC à l’aide d’Openflow. Vous pouvez déployer des connecteurs Openflow dans vos exécutions, mais également créer des pipelines entièrement nouveaux en utilisant des processeurs et des services de contrôleur Openflow.
- Exécution Openflow - Snowflake Deployment
Les environnements d’exécution de déploiements Openflow - Snowflake sont déployés en tant que service:doc:`Snowpark Container Services </developer-guide/snowpark-container-services/overview>`vers un déploiement Openflow - Snowflake Deployment, qui est représenté par un pool de calcul sous-jacent. Les clients demandent une exécution par le biais du déploiement, qui exécute une requête pour le compte de l’utilisateur auprès du service. Une fois l’exécution créée, les clients y accèdent via un navigateur Web à l’URL générée pour ce service sous-jacent.
