Openflowを使用したデータフローの作成¶

このトピックでは、Openflow でデータフローを作成するプロセスについて説明します。

前提条件¶

プロシージャ¶

ランタイム環境をセットアップしたら、簡単なデータパイプラインを作成してみましょう。例として、指定したスキーマに基づいて記録を生成し、 SQL クエリに基づいて記録をフィルターし、データを Snowflake に送信します。

データフローの構築方法の詳細については、 Apache NiFi ドキュメントをご参照ください。

Openflowアプリケーションを開きます。空である可能性が高い大容量グリッド領域はキャンバスと呼ばれ、データフローを実装するために作成するコンポーネントのホームです。
プロセスグループを作成します。ページ上部のツールパレットからプロセスグループのアイコンをキャンバスにドラッグ＆ドロップします。ポインターをリリースすると、 Create Process Group ポップアップが表示されます。
データフローの名前（例：Flow Example）を入力し、 Add をクリックします。
オプション：作成したプロセスグループを右クリックし、コンテキストメニューから Enter Group ` を選択します。オプションで、プロセスグループをダブルクリックすることもできます。これにより、キャンバスのトップレベルから視覚的に抽象化されます。
プロセッサーを追加します。プロセッサーを追加するには、 Processor ツールを選択し、キャンバス上にドラッグしてクリックをリリースします。

Add Processor ダイアログが表示されます。
リストから GenerateRecord ` プロセッサーを選択し、 Add をクリックします。

キャンバスに新しく追加されたプロセッサーが表示されます。

注釈

複数のプロセッサーを追加できます。
以下のプロセッサーを追加します。これらは後のステップで構成します。
1. QueryRecord
2. PutDatabaseRecord
プロセッサーを構成します。

プロセッサーをダブルクリックします。 Edit Processor ダイアログが表示されます。

以下のプロパティを変更します。
1. 設定
2. スケジューリング
3. プロパティ
4. 関係:
5. コメント
プロセッサー間の接続を作成します。
1. 最初のプロセッサーにカーソルを合わせてください。プロセッサーの中央に矢印のついた円が表示されます。
2. 内側に矢印のある円をクリックし、ポインターを2番目のプロセッサーに向かってドラッグします。この場合、接続の準備ができていないことを示す赤い点線が表示されます。
3. スプライトを2番目のプロセッサーの上に移動します。
  
  点線が緑色に変わり、ターゲットプロセッサーの周囲に緑色の境界線が表示されます。
4. マウスをリリースします。 Create Connection ポップアップウィンドウが表示されます。
5. From Processor と To Processor の名前に注意します。ui: 'Relationships` セクションを選択し、 Success をチェックします。
6. Add をクリックします。新しい接続が作成されます。
接続は、次のプロセッサーがトリガーされ、それらを消費するまで、 FlowFiles のキューによってバックアップされています。
SnowflakeConnectionService Controller Serviceをフローに追加します。
Controller Serviceを編集し、必要なフィールドを入力します。
Snowflakeアカウントにログインし、データベースを作成します。
データベースの PUBLIC スキーマに、標準テーブルを作成します。

create table SAMPLE_DATA (
    name STRING,
    country STRING
)

Copy

Openflow でフローを実行します。
データをクエリする。