Créer un flux de données à l’aide d’Openflow¶
Cette rubrique décrit le processus de création d’un flux de données dans Openflow.
Conditions préalables¶
Procédure¶
Une fois que votre environnement d’exécution est en place, nous allons créer un pipeline de données simple. Par exemple, nous allons générer des enregistrements sur la base d’un schéma spécifié, filtrer ces enregistrements sur la base d’une requête SQL, puis envoyer les données à Snowflake.
Pour une description détaillée de la manière de construire des flux de données, voir Apache NiFi documentation.
Ouvrez l’application Openflow. La large zone de la grille, probablement vide, s’appelle le canevas et accueille les composants que vous créerez pour mettre en œuvre votre flux de données.
Créez un groupe de processus. Faites glisser l’icône Groupe de processus de la palette d’outils en haut de la page sur le canevas. Lorsque vous relâchez votre pointeur, une fenêtre contextuelle Créer un groupe de processus apparaît.
Saisissez un nom pour votre flux de données, par exemple Flow Example, et cliquez sur Add.
Facultatif : cliquez avec le bouton droit de la souris sur le groupe de processus que vous venez de créer et sélectionnez Enter Group ` dans le menu contextuel. Vous pouvez également double-cliquer sur le groupe de processus. Cela crée une abstraction visuelle par rapport au niveau supérieur de la toile.
Ajoutez un processeur. Pour ajouter un processeur, sélectionnez l’outil Processor et faites-le glisser sur la toile, puis relâchez votre clic.
La boîte de dialogue Add Processor apparaît.
Sélectionnez le processeur GenerateRecord ` dans la liste et cliquez sur Add.
Le canevas affiche maintenant un processeur nouvellement ajouté, vous.
Note
Vous pouvez ajouter plusieurs processeurs.
Ajoutez les processeurs suivants. Ils seront configurés dans les étapes suivantes :
QueryRecord
PutDatabaseRecord
Configurez les processeurs.
Double-cliquez sur un processeur. La boîte de dialogue Edit Processor apparaît.
Modifiez les propriétés suivantes :
Paramètres
Planification
Propriétés
Relations :
Commentaires
Créez des connexions entre les transformateurs.
Survolez le premier processeur. Un cercle avec une flèche à l’intérieur apparaît au milieu du processeur.
Cliquez sur le cercle avec la flèche à l’intérieur et faites glisser le pointeur vers le deuxième processeur. Une ligne rouge en pointillés apparaît alors, indiquant qu’il n’est pas prêt à établir une connexion.
Déplacez le sprite sur le deuxième processeur.
La ligne en pointillé devient verte et un cadre vert apparaît autour du processeur cible.
Relâchez la souris. La fenêtre Create Connection s’affiche.
Notez les noms From Processor et To Processor. Sélectionnez la section :ui: “Relationships`, cochez Success.
Cliquez sur Add. La nouvelle connexion est créée.
La connexion est soutenue par une file d’attente de FlowFiles qui les héberge jusqu’à ce que le prochain processeur soit déclenché et les consomme.
Ajoutez le service de contrôleur SnowflakeConnectionService au flux.
Modifiez le service du contrôleur et remplissez les champs obligatoires.
Connectez-vous à votre compte Snowflake et créez une base de données.
Dans le schéma PUBLIC de la base de données, créez une table standard.
create table SAMPLE_DATA (
name STRING,
country STRING
)
Exécutez le flux sur Openflow.
Interroger les données.