ListGCSBucket 2025.10.2.19

バンドル

org.apache.nifi | nifi-gcp-nar

説明

GCS バケットからオブジェクトのリストを取得します。リストされた各オブジェクトについて、そのオブジェクトを表す FlowFile を作成し、 FetchGCSObject と組み合わせて取得できるようにします。このプロセッサーは、クラスタ内のプライマリノードのみで動作するように設計されています。プライマリ・ノードが変更された場合、新しいプライマリ・ノードは、すべてのデータを複製することなく、前のノードが去った場所を引き継ぎます。

タグ

gcs、Google、Google Cloud、リスト、ストレージ

入力要件

FORBIDDEN

機密動的プロパティをサポート

false

プロパティ

プロパティ

説明

GCP 認証情報 プロバイダーサービス

Google Cloud Platform の認証情報の取得に使用する Controller Service。

et-initial-listing-target

Specify how initial listing should be handled. Used by 'Tracking Entities'strategy.

et-state-cache

Listed entities are stored in the specified cache storage so that this processor can resume listing across NiFi restart or in case of primary node change. 'Tracking Entities'strategy require tracking information of all listed entities within the last 'Tracking Time Window'. To support large number of entities, the strategy uses DistributedMapCache instead of managed state. Cache key format is 'ListedEntities::{processorId}(::{nodeId})'. If it tracks per node listed entities, then the optional '::{nodeId}' part is added to manage state separately. E.g. cluster wide cache key ='ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b', per node cache key ='ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3' The stored cache content is Gzipped JSON string. The cache key will be deleted when target listing configuration is changed. Used by 'Tracking Entities'strategy.

et-time-window

Specify how long this processor should track already-listed entities. 'Tracking Entities'strategy can pick any entity whose timestamp is inside the specified time window. For example, if set to '30 minutes', any entity having timestamp in recent 30 minutes will be the listing target when this processor runs. A listed entity is considered 'new/updated' and a FlowFile is emitted if one of following condition meets: 1. does not exist in the already-listed entities, 2. has newer timestamp than the cached entity, 3. has different size than the cached entity. If a cached entity 's timestamp becomes older than specified time window, that entity will be removed from the cached already-listed entities. Used by'Tracking Entities'strategy.

gcp-project-id

Google Cloud Project ID

gcp-retry-count

障害関係にルーティングする前に、何回リトライを試みるか。

gcs-bucket

オブジェクトのバケット。

gcs-prefix

The prefix used to filter the object list. In most cases, it should end with a forward slash ( '/').

gcs-use-generations

Specifies whether to use GCS Generations, if applicable. If false, only the latest version of each object will be returned.

listing-strategy

新規/更新エンティティの判定方法を指定します。詳しくは各戦略の説明をご覧ください。

proxy-configuration-service

ネットワークリクエストをプロキシするプロキシ構成Controller Serviceを指定します。

record-writer

リストの作成に使用するRecord Writerを指定します。指定しない場合は、リストされたエンティティごとに FlowFile が1つ作成されます。Record Writerを指定すると、個々の FlowFiles に属性を追加する代わりに、すべてのエンティティが単一の FlowFile に書き込まれます。

storage-api-url

デフォルトのストレージ URL を上書きします。別のストレージ API URL を構成すると、Private Service Connections の Google ドキュメントで説明されているように、リクエストの HTTP Host ヘッダーも上書きされます。

状態管理

スコープ

説明

CLUSTER

キーのリストを実行した後、最新のキーのタイムスタンプが、同じタイムスタンプを共有するキーとともに格納されます。これにより、次にProcessorを実行するときに、この日付以降に追加または変更されたキーのみがリストされるようになります。状態はクラスタリングに保存され、このプロセッサーがPrimary Nodeで実行されます。新しいプライマリ・ノードが選択された場合、新しいノードはデータを複製することなく、前のノードが停止した場所を引き継ぐことができます。

リレーションシップ

名前

説明

success

FlowFiles は Google Cloud Storage の操作が成功すると、この関係にルーティングされます。

属性の書き込み

名前

説明

filename

ファイル名

gcs.bucket

オブジェクトのバケット。

gcs.key

オブジェクトの名前です。

gcs.size

オブジェクトのサイズ。

gcs.cache.control

オブジェクトのデータキャッシュ制御。

gcs.component.count

オブジェクトを構成するコンポーネントの数。

gcs.content.disposition

オブジェクトのデータ内容の配置。

gcs.content.encoding

オブジェクトのコンテンツエンコーディング。

gcs.content.language

オブジェクトの内容言語。

mime.type

オブジェクトの MIME/Content-Type。

gcs.crc32c

オブジェクトのデータの CRC32C チェックサム。base64 でビッグエンディアン順にエンコードされています。

gcs.create.time

オブジェクトの作成時間(ミリ秒)

gcs.update.time

オブジェクトの最終更新時刻(ミリ秒)

gcs.encryption.algorithm

オブジェクトの暗号化に使用されるアルゴリズム。

gcs.encryption.sha256

SHA256 オブジェクトの暗号化に使われたキーのハッシュ。

gcs.etag

HTTP 1.1 オブジェクトのエンティティタグ。

gcs.generated.id

オブジェクトに対して生成されたサービス

gcs.generation

オブジェクトのデータ生成。

gcs.md5

オブジェクトのデータを base64 でエンコードした MD5 ハッシュ。

gcs.media.link

オブジェクトへのメディアダウンロードリンク。

gcs.metageneration

オブジェクトのメタジェネレーション。

gcs.owner

オブジェクトの所有者(アップロード者)。

gcs.owner.type

ACL オブジェクトのアップローダーのエンティティタイプ。

gcs.acl.owner

オブジェクトへのオーナーアクセスを持つ ACL エンティティのカンマ区切りリスト。エンティティは、メールアドレス、ドメイン、またはプロジェクト IDs のいずれかになります。

gcs.acl.writer

オブジェクトへの書き込みアクセス権を持つ ACL エンティティのカンマ区切りリスト。エンティティは、メールアドレス、ドメイン、またはプロジェクト IDs のいずれかになります。

gcs.acl.reader

オブジェクトへの読み取りアクセスを持つ ACL エンティティのカンマ区切りリスト。エンティティは、メールアドレス、ドメイン、またはプロジェクト IDs のいずれかになります。

gcs.uri

オブジェクトの URI (文字列)。

こちらもご覧ください