ListGCSBucket 2025.10.2.19

Bundle

org.apache.nifi | nifi-gcp-nar

Beschreibung

Ruft eine Liste von Objekten aus einem GCS-Bucket ab. Für jedes aufgelistete Objekt wird ein FlowFile erstellt, das das Objekt darstellt, sodass es in Verbindung mit FetchGCSObject abgerufen werden kann. Dieser Prozessor ist für den Betrieb auf dem primären Knoten in einem Cluster vorgesehen. Wenn sich der primäre Knoten ändert, macht der neue primäre Knoten dort weiter, wo der vorherige Knoten aufgehört hat, ohne alle Daten zu duplizieren.

Tags

gcs, google, google cloud, list, storage

Eingabeanforderung

FORBIDDEN

Unterstützt sensible dynamische Eigenschaften

false

Eigenschaften

Eigenschaft

Beschreibung

GCP-Anmeldeinformationen-Anbieterdienst

Der Controller Service, der verwendet wird, um Anmeldeinformationen für Google Cloud Platform zu erhalten.

et-initial-listing-target

Specify how initial listing should be handled. Used by ‚Tracking Entities’strategy.

et-state-cache

Listed entities are stored in the specified cache storage so that this processor can resume listing across NiFi restart or in case of primary node change. ‚Tracking Entities’strategy require tracking information of all listed entities within the last ‚Tracking Time Window‘. To support large number of entities, the strategy uses DistributedMapCache instead of managed state. Cache key format is ‚ListedEntities::{processorId}(::{nodeId})‘. If it tracks per node listed entities, then the optional ‚::{nodeId}‘ part is added to manage state separately. E.g. cluster wide cache key =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b‘, per node cache key =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3‘ The stored cache content is Gzipped JSON string. The cache key will be deleted when target listing configuration is changed. Used by ‚Tracking Entities’strategy.

et-time-window

Specify how long this processor should track already-listed entities. ‚Tracking Entities’strategy can pick any entity whose timestamp is inside the specified time window. For example, if set to ‚30 minutes‘, any entity having timestamp in recent 30 minutes will be the listing target when this processor runs. A listed entity is considered ‚new/updated‘ and a FlowFile is emitted if one of following condition meets: 1. does not exist in the already-listed entities, 2. has newer timestamp than the cached entity, 3. has different size than the cached entity. If a cached entity ‚s timestamp becomes older than specified time window, that entity will be removed from the cached already-listed entities. Used by’Tracking Entities’strategy.

gcp-project-id

Google Cloud Projekt-ID

gcp-retry-count

Wie viele Wiederholungsversuche unternommen werden sollten, bevor die Weiterleitung an die Beziehung „failure“ erfolgt.

gcs-bucket

Bucket des Objekts.

gcs-prefix

The prefix used to filter the object list. In most cases, it should end with a forward slash ( ‚/‘).

gcs-use-generations

Specifies whether to use GCS Generations, if applicable. If false, only the latest version of each object will be returned.

listing-strategy

Legen Sie fest, wie neue/aktualisierte Entitäten ermittelt werden sollen. Weitere Informationen finden Sie in den Beschreibungen der einzelnen Strategien.

proxy-configuration-service

Gibt den Proxy-Konfigurations-Controller Service an für die Weiterleitung von Netzwerkanforderungen festl.

record-writer

Gibt den Record Writer an, der zum Erstellen der Liste verwendet werden soll. Wenn nicht angegeben, wird für jede aufgelistete Entität ein FlowFile erstellt. Wenn der Record Writer angegeben ist, werden alle Entitäten in ein einziges FlowFile geschrieben, anstatt Attribute zu einzelnen FlowFiles hinzuzufügen.

storage-api-url

Überschreibt die Standardspeicher-URL. Durch Konfiguration einer alternativen Storage-API-URL wird auch der HTTP-Host-Header bei Anfragen überschrieben, wie in der Google-Dokumentation zu Private Service Connections beschrieben.

Statusmanagement

Bereiche

Beschreibung

CLUSTER

Nach dem Auflisten der Schlüssel wird der Zeitstempel des neuesten Schlüssels zusammen mit den Schlüsseln gespeichert, die denselben Zeitstempel haben. Dadurch kann der Prozessor bei der nächsten Ausführung des Prozessors nur Schlüssel auflisten, die nach diesem Datum hinzugefügt oder geändert wurden. Der Status wird im gesamten Cluster gespeichert, sodass dieser Prozessor nur auf dem primären Knoten ausgeführt werden kann. Wenn ein neuer primärer Knoten ausgewählt wird, kann der neue Knoten dort weitermachen, wo der vorherige Knoten aufgehört hat, ohne die Daten zu duplizieren.

Beziehungen

Name

Beschreibung

success

FlowFiles werden nach einer erfolgreichen Google Cloud Storage-Operation an diese Beziehung weitergeleitet.

Schreibt Attribute

Name

Beschreibung

filename

Der Name der Datei

gcs.bucket

Bucket des Objekts.

gcs.key

Name des Objekts.

gcs.size

Größe des Objekts.

gcs.cache.control

Daten-Cache-Steuerung des Objekts.

gcs.component.count

Die Anzahl der Komponenten, aus denen das Objekt besteht.

gcs.content.disposition

Die Dateninhaltsdisposition des Objekts.

gcs.content.encoding

Die Inhaltscodierung des Objekts.

gcs.content.language

Die Inhaltssprache des Objekts.

mime.type

Die MIME-/Content-Type des Objekts

gcs.crc32c

Die CRC32C-Prüfsumme der Daten des Objekts, codiert in base64 in Big-Endian-Reihenfolge.

gcs.create.time

Die Erstellungszeit des Objekts (Millisekunden)

gcs.update.time

Der Zeitpunkt der letzten Änderung des Objekts (Millisekunden)

gcs.encryption.algorithm

Der zur Verschlüsselung des Objekts verwendete Algorithmus.

gcs.encryption.sha256

Der SHA256-Hashwert des zur Verschlüsselung des Objekts verwendeten Schlüssels

gcs.etag

Das HTTP 1.1 Entity-Tag für das Objekt.

gcs.generated.id

Der Dienst, der für das Objekt generiert wurde

gcs.generation

Die Datenerzeugung des Objekts.

gcs.md5

Der MD5-Hashwert der Daten des Objekts, codiert in base64.

gcs.media.link

Der Medien-Download-Link zum Objekt.

gcs.metageneration

Die Metageneration des Objekts.

gcs.owner

Der Eigentümer (Hochladende) des Objekts.

gcs.owner.type

Der ACL-Entitätstyp des Uploaders des Objekts.

gcs.acl.owner

Eine durch Kommas getrennte Liste von ACL-Entitäten, die als Eigentümer Zugriff auf das Objekt haben. Entitäten sind entweder E-Mail-Adressen, Domänen oder Projekt-IDs.

gcs.acl.writer

Eine durch Kommas getrennte Liste von ACL-Entitäten, die Schreibzugriff auf das Objekt haben. Entitäten sind entweder E-Mail-Adressen, Domänen oder Projekt-IDs.

gcs.acl.reader

Eine durch Kommas getrennte Liste von ACL Entitäten, die Lesezugriff auf das Objekt haben. Entitäten sind entweder E-Mail-Adressen, Domänen oder Projekt-IDs.

gcs.uri

Die URI des Objekts als Zeichenfolge.

Siehe auch: