Openflowを使用したデータフローの作成¶
このトピックでは、Openflow でデータフローを作成するプロセスについて説明します。
前提条件¶
プロシージャ¶
ランタイム環境をセットアップしたら、簡単なデータパイプラインを作成してみましょう。例として、指定したスキーマに基づいて記録を生成し、 SQL クエリに基づいて記録をフィルターし、データを Snowflake に送信します。
データフローの構築方法の詳細については、 Apache NiFi ドキュメント をご参照ください。
Openflowアプリケーションを開きます。空である可能性が高い大容量グリッド領域はキャンバスと呼ばれ、データフローを実装するために作成するコンポーネントのホームです。
プロセスグループを作成します。ページ上部のツールパレットからプロセスグループのアイコンをキャンバスにドラッグ&ドロップします。ポインターをリリースすると、 Create Process Group ポップアップが表示されます。
データフローの名前(例:Flow Example)を入力し、 Add をクリックします。
オプション:作成したプロセスグループを右クリックし、コンテキストメニューから Enter Group ` を選択します。オプションで、プロセスグループをダブルクリックすることもできます。これにより、キャンバスのトップレベルから視覚的に抽象化されます。
プロセッサーを追加します。プロセッサーを追加するには、 Processor ツールを選択し、キャンバス上にドラッグしてクリックをリリースします。
Add Processor ダイアログが表示されます。
リストから GenerateRecord ` プロセッサーを選択し、 Add をクリックします。
キャンバスに新しく追加されたプロセッサーが表示されます。
注釈
複数のプロセッサーを追加できます。
以下のプロセッサーを追加します。これらは後のステップで構成します。
QueryRecord
PutDatabaseRecord
プロセッサーを構成します。
プロセッサーをダブルクリックします。 Edit Processor ダイアログが表示されます。
以下のプロパティを変更します。
設定
スケジューリング
プロパティ
関係:
コメント
プロセッサー間の接続を作成します。
最初のプロセッサーにカーソルを合わせてください。プロセッサーの中央に矢印のついた円が表示されます。
内側に矢印のある円をクリックし、ポインターを2番目のプロセッサーに向かってドラッグします。この場合、接続の準備ができていないことを示す赤い点線が表示されます。
スプライトを2番目のプロセッサーの上に移動します。
点線が緑色に変わり、ターゲットプロセッサーの周囲に緑色の境界線が表示されます。
マウスをリリースします。 Create Connection ポップアップウィンドウが表示されます。
From Processor と To Processor の名前に注意します。ui: 'Relationships` セクションを選択し、 Success をチェックします。
Add をクリックします。新しい接続が作成されます。
接続は、次のプロセッサーがトリガーされ、それらを消費するまで、 FlowFiles のキューによってバックアップされています。
SnowflakeConnectionService Controller Serviceをフローに追加します。
Controller Serviceを編集し、必要なフィールドを入力します。
Snowflakeアカウントにログインし、データベースを作成します。
データベースの PUBLIC スキーマに、標準テーブルを作成します。
create table SAMPLE_DATA (
name STRING,
country STRING
)
Openflow でフローを実行します。
データをクエリする。