Openflowを使用したデータフローの作成

このトピックでは、Openflow でデータフローを作成するプロセスについて説明します。

前提条件

Openflowをセットアップする

プロシージャ

ランタイム環境をセットアップしたら、簡単なデータパイプラインを作成してみましょう。例として、指定したスキーマに基づいて記録を生成し、 SQL クエリに基づいて記録をフィルターし、データを Snowflake に送信します。

データフローの構築方法の詳細については、 Apache NiFi ドキュメント をご参照ください。

  1. Openflowアプリケーションを開きます。空である可能性が高い大容量グリッド領域はキャンバスと呼ばれ、データフローを実装するために作成するコンポーネントのホームです。

  2. プロセスグループを作成します。ページ上部のツールパレットからプロセスグループのアイコンをキャンバスにドラッグ&ドロップします。ポインターをリリースすると、 Create Process Group ポップアップが表示されます。

  3. データフローの名前(例:Flow Example)を入力し、 Add をクリックします。

  4. オプション:作成したプロセスグループを右クリックし、コンテキストメニューから Enter Group ` を選択します。オプションで、プロセスグループをダブルクリックすることもできます。これにより、キャンバスのトップレベルから視覚的に抽象化されます。

  5. プロセッサーを追加します。プロセッサーを追加するには、 Processor ツールを選択し、キャンバス上にドラッグしてクリックをリリースします。

    Add Processor ダイアログが表示されます。

  6. リストから GenerateRecord ` プロセッサーを選択し、 Add をクリックします。

    キャンバスに新しく追加されたプロセッサーが表示されます。

    注釈

    複数のプロセッサーを追加できます。

  7. 以下のプロセッサーを追加します。これらは後のステップで構成します。

    1. QueryRecord

    2. PutDatabaseRecord

  8. プロセッサーを構成します。

    プロセッサーをダブルクリックします。 Edit Processor ダイアログが表示されます。

    以下のプロパティを変更します。

    1. 設定

    2. スケジューリング

    3. プロパティ

    4. 関係:

    5. コメント

  9. プロセッサー間の接続を作成します。

    1. 最初のプロセッサーにカーソルを合わせてください。プロセッサーの中央に矢印のついた円が表示されます。

    2. 内側に矢印のある円をクリックし、ポインターを2番目のプロセッサーに向かってドラッグします。この場合、接続の準備ができていないことを示す赤い点線が表示されます。

    3. スプライトを2番目のプロセッサーの上に移動します。

      点線が緑色に変わり、ターゲットプロセッサーの周囲に緑色の境界線が表示されます。

    4. マウスをリリースします。 Create Connection ポップアップウィンドウが表示されます。

    5. From ProcessorTo Processor の名前に注意します。ui: 'Relationships` セクションを選択し、 Success をチェックします。

    6. Add をクリックします。新しい接続が作成されます。

    接続は、次のプロセッサーがトリガーされ、それらを消費するまで、 FlowFiles のキューによってバックアップされています。

  10. SnowflakeConnectionService Controller Serviceをフローに追加します。

  11. Controller Serviceを編集し、必要なフィールドを入力します。

  12. Snowflakeアカウントにログインし、データベースを作成します。

  13. データベースの PUBLIC スキーマに、標準テーブルを作成します。

create table SAMPLE_DATA (
    name STRING,
    country STRING
)
Copy
  1. Openflow でフローを実行します。

  2. データをクエリする。