ListAzureDataLakeStorage 2025.10.2.19¶
バンドル¶
org.apache.nifi | nifi-azure-nar
説明¶
Azure Data Lake Storage Gen 2 ファイルシステム内のディレクトリをリストします。
入力要件¶
FORBIDDEN
機密動的プロパティをサポート¶
false
プロパティ¶
プロパティ |
説明 |
|---|---|
ADLS 認証情報 |
Azure認証情報の取得に使用するController Service。 |
ディレクトリ名 |
Azure ストレージディレクトリの名前。ディレクトリ名に先頭の「/」を含めることはできません。ルート・ディレクトリは空文字列の値で指定できます。PutAzureDataLakeStorage プロセッサーの場合、ディレクトリがまだ存在しなければ作成されます。 |
ファイルフィルター |
指定された正規表現にマッチする名前のファイルだけがリストされます。 |
ファイルシステム名 |
Azure ストレージファイルシステム(コンテナーとも呼ばれる)の名前。すでに存在するものとします。 |
一時ファイルを含める |
構成されたディレクトリパスの内容をリストする際に、仮のファイルを含めるかどうか。 |
最大ファイル年齢 |
ファイルが引き出されるために必要な最大年齢。(最終更新日付に従って)この時間より古いファイルは無視されます。 |
最大ファイルサイズ |
プルされるファイルの最大サイズ |
最低ファイル年齢 |
ファイルが引き出されるために必要な最低年齢。(最終更新日付に従って)この期間より若いファイルは無視されます。 |
最小ファイルサイズ |
プルされるために必要なファイルの最小サイズ |
パスフィルター |
「サブディレクトリの再帰」が true の場合、与えられた正規表現にマッチするパスを持つ サブディレクトリのみがスキャンされます。 |
サブディレクトリを再帰する |
ディレクトリのサブディレクトリのファイルをリストするかどうかを示します。 |
et-initial-listing-target |
初期リストの処理方法を指定します。「エンティティの追跡」戦略で使用されます。 |
et-state-cache |
リストされたエンティティは指定されたキャッシュストレージに保存されるため、このプロセッサーは、NiFi 再起動時またはプライマリノードが変更された場合に、リストを再開できます。「エンティティの追跡」戦略では、直近の「追跡時間ウィンドウ」内にリストされているすべてのエンティティの追跡情報が必要です。多数のエンティティをサポートするために、この戦略では管理状態の代わりに DistributedMapCache を使用します。キャッシュキーの形式は「ListedEntities::{processorId}(::{nodeId})」です。ノードごとに列挙されたエンティティを追跡する場合は、状態を個別に管理するためにオプションの「::{nodeId}」部分が追加されます。例:クラスター全体のキャッシュキー =「ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b」、ノードごとのキャッシュキー =「ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3」保存されるキャッシュの内容はGzip圧縮された JSON 文字列です。キャッシュキーは、ターゲットリスティングの構成が変更されると削除されます。「エンティティの追跡」戦略で使用されます。 |
et-time-window |
このプロセッサーが、すでにリストされているエンティティを追跡する期間を指定します。「エンティティの追跡」戦略は、タイムスタンプが指定された時間枠内にあるエンティティを選ぶことができます。例えば、「30 minutes」に設定すると、このプロセッサーが実行されたときに、最近30分のタイムスタンプを持つすべてのエンティティがリスティングの対象となります。リストされたエンティティは「新規/更新」とみなされ、以下の条件のいずれかが満たされた場合にFlowFile が発行されます。1. 既にリストされているエンティティに存在しない、2. キャッシュされたエンティティよりもタイムスタンプが新しい、3. キャッシュされたエンティティとはサイズが異なる。キャッシュされたエンティティのタイムスタンプが指定された時間枠より古くなった場合、そのエンティティはキャッシュされた既にリストされているエンティティから削除されます。「エンティティの追跡」戦略で使用されます。 |
listing-strategy |
新規/更新エンティティの判定方法を指定します。詳しくは各戦略の説明をご覧ください。 |
proxy-configuration-service |
ネットワークリクエストをプロキシするプロキシ構成Controller Serviceを指定します。SOCKS の場合、選択された SOCKS バージョンがプロセッサーで使用されることは保証されません。 |
record-writer |
リストの作成に使用するRecord Writerを指定します。指定しない場合は、リストされたエンティティごとに FlowFile が1つ作成されます。Record Writerを指定すると、個々の FlowFiles に属性を追加する代わりに、すべてのエンティティが単一の FlowFile に書き込まれます。 |
状態管理¶
スコープ |
説明 |
|---|---|
CLUSTER |
ファイルのリストをパフォーマンスした後、最も新しいファイルのタイムスタンプが保存されます。これにより、次回 Processor を実行したときに、この日付以降に追加または変更されたファイルのみがリストされます。状態はクラスタリングに保存され、このプロセッサーがPrimary Nodeで実行されます。新しいプライマリ・ノードが選択された場合、新しいノードはデータを複製することなく、前のノードが停止した場所を引き継ぐことができます。 |
リレーションシップ¶
名前 |
説明 |
|---|---|
success |
受信したすべての FlowFiles は成功にルーティングされます。 |
属性の書き込み¶
名前 |
説明 |
|---|---|
azure.filesystem |
Azure ファイルシステムの名前 |
azure.filePath |
Azure ファイルのフルパス |
azure.directory |
Azureディレクトリの名前 |
azure.filename |
Azure ファイルの名前 |
azure.length |
Azureファイルの長さ |
azure.lastModified |
Azure ファイルの最終更新時刻 |
azure.etag |
Azure ファイルの ETag |