ListGCSBucket 2025.10.2.19¶
バンドル¶
org.apache.nifi | nifi-gcp-nar
説明¶
GCS バケットからオブジェクトのリストを取得します。リストされた各オブジェクトについて、そのオブジェクトを表す FlowFile を作成し、 FetchGCSObject と組み合わせて取得できるようにします。このプロセッサーは、クラスタ内のプライマリノードのみで動作するように設計されています。プライマリ・ノードが変更された場合、新しいプライマリ・ノードは、すべてのデータを複製することなく、前のノードが去った場所を引き継ぎます。
入力要件¶
FORBIDDEN
機密動的プロパティをサポート¶
false
プロパティ¶
プロパティ |
説明 |
|---|---|
GCP 認証情報 プロバイダーサービス |
Google Cloud Platform の認証情報の取得に使用する Controller Service。 |
et-initial-listing-target |
Specify how initial listing should be handled. Used by 'Tracking Entities'strategy. |
et-state-cache |
Listed entities are stored in the specified cache storage so that this processor can resume listing across NiFi restart or in case of primary node change. 'Tracking Entities'strategy require tracking information of all listed entities within the last 'Tracking Time Window'. To support large number of entities, the strategy uses DistributedMapCache instead of managed state. Cache key format is 'ListedEntities::{processorId}(::{nodeId})'. If it tracks per node listed entities, then the optional '::{nodeId}' part is added to manage state separately. E.g. cluster wide cache key ='ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b', per node cache key ='ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3' The stored cache content is Gzipped JSON string. The cache key will be deleted when target listing configuration is changed. Used by 'Tracking Entities'strategy. |
et-time-window |
Specify how long this processor should track already-listed entities. 'Tracking Entities'strategy can pick any entity whose timestamp is inside the specified time window. For example, if set to '30 minutes', any entity having timestamp in recent 30 minutes will be the listing target when this processor runs. A listed entity is considered 'new/updated' and a FlowFile is emitted if one of following condition meets: 1. does not exist in the already-listed entities, 2. has newer timestamp than the cached entity, 3. has different size than the cached entity. If a cached entity 's timestamp becomes older than specified time window, that entity will be removed from the cached already-listed entities. Used by'Tracking Entities'strategy. |
gcp-project-id |
Google Cloud Project ID |
gcp-retry-count |
障害関係にルーティングする前に、何回リトライを試みるか。 |
gcs-bucket |
オブジェクトのバケット。 |
gcs-prefix |
The prefix used to filter the object list. In most cases, it should end with a forward slash ( '/'). |
gcs-use-generations |
Specifies whether to use GCS Generations, if applicable. If false, only the latest version of each object will be returned. |
listing-strategy |
新規/更新エンティティの判定方法を指定します。詳しくは各戦略の説明をご覧ください。 |
proxy-configuration-service |
ネットワークリクエストをプロキシするプロキシ構成Controller Serviceを指定します。 |
record-writer |
リストの作成に使用するRecord Writerを指定します。指定しない場合は、リストされたエンティティごとに FlowFile が1つ作成されます。Record Writerを指定すると、個々の FlowFiles に属性を追加する代わりに、すべてのエンティティが単一の FlowFile に書き込まれます。 |
storage-api-url |
デフォルトのストレージ URL を上書きします。別のストレージ API URL を構成すると、Private Service Connections の Google ドキュメントで説明されているように、リクエストの HTTP Host ヘッダーも上書きされます。 |
状態管理¶
スコープ |
説明 |
|---|---|
CLUSTER |
キーのリストを実行した後、最新のキーのタイムスタンプが、同じタイムスタンプを共有するキーとともに格納されます。これにより、次にProcessorを実行するときに、この日付以降に追加または変更されたキーのみがリストされるようになります。状態はクラスタリングに保存され、このプロセッサーがPrimary Nodeで実行されます。新しいプライマリ・ノードが選択された場合、新しいノードはデータを複製することなく、前のノードが停止した場所を引き継ぐことができます。 |
リレーションシップ¶
名前 |
説明 |
|---|---|
success |
FlowFiles は Google Cloud Storage の操作が成功すると、この関係にルーティングされます。 |
属性の書き込み¶
名前 |
説明 |
|---|---|
filename |
ファイル名 |
gcs.bucket |
オブジェクトのバケット。 |
gcs.key |
オブジェクトの名前です。 |
gcs.size |
オブジェクトのサイズ。 |
gcs.cache.control |
オブジェクトのデータキャッシュ制御。 |
gcs.component.count |
オブジェクトを構成するコンポーネントの数。 |
gcs.content.disposition |
オブジェクトのデータ内容の配置。 |
gcs.content.encoding |
オブジェクトのコンテンツエンコーディング。 |
gcs.content.language |
オブジェクトの内容言語。 |
mime.type |
オブジェクトの MIME/Content-Type。 |
gcs.crc32c |
オブジェクトのデータの CRC32C チェックサム。base64 でビッグエンディアン順にエンコードされています。 |
gcs.create.time |
オブジェクトの作成時間(ミリ秒) |
gcs.update.time |
オブジェクトの最終更新時刻(ミリ秒) |
gcs.encryption.algorithm |
オブジェクトの暗号化に使用されるアルゴリズム。 |
gcs.encryption.sha256 |
SHA256 オブジェクトの暗号化に使われたキーのハッシュ。 |
gcs.etag |
HTTP 1.1 オブジェクトのエンティティタグ。 |
gcs.generated.id |
オブジェクトに対して生成されたサービス |
gcs.generation |
オブジェクトのデータ生成。 |
gcs.md5 |
オブジェクトのデータを base64 でエンコードした MD5 ハッシュ。 |
gcs.media.link |
オブジェクトへのメディアダウンロードリンク。 |
gcs.metageneration |
オブジェクトのメタジェネレーション。 |
gcs.owner |
オブジェクトの所有者(アップロード者)。 |
gcs.owner.type |
ACL オブジェクトのアップローダーのエンティティタイプ。 |
gcs.acl.owner |
オブジェクトへのオーナーアクセスを持つ ACL エンティティのカンマ区切りリスト。エンティティは、メールアドレス、ドメイン、またはプロジェクト IDs のいずれかになります。 |
gcs.acl.writer |
オブジェクトへの書き込みアクセス権を持つ ACL エンティティのカンマ区切りリスト。エンティティは、メールアドレス、ドメイン、またはプロジェクト IDs のいずれかになります。 |
gcs.acl.reader |
オブジェクトへの読み取りアクセスを持つ ACL エンティティのカンマ区切りリスト。エンティティは、メールアドレス、ドメイン、またはプロジェクト IDs のいずれかになります。 |
gcs.uri |
オブジェクトの URI (文字列)。 |