ListGCSBucket 2025.10.2.19¶
Bundle¶
org.apache.nifi | nifi-gcp-nar
Beschreibung¶
Ruft eine Liste von Objekten aus einem GCS-Bucket ab. Für jedes aufgelistete Objekt wird ein FlowFile erstellt, das das Objekt darstellt, sodass es in Verbindung mit FetchGCSObject abgerufen werden kann. Dieser Prozessor ist für den Betrieb auf dem primären Knoten in einem Cluster vorgesehen. Wenn sich der primäre Knoten ändert, macht der neue primäre Knoten dort weiter, wo der vorherige Knoten aufgehört hat, ohne alle Daten zu duplizieren.
Eingabeanforderung¶
FORBIDDEN
Unterstützt sensible dynamische Eigenschaften¶
false
Eigenschaften¶
Eigenschaft |
Beschreibung |
|---|---|
GCP-Anmeldeinformationen-Anbieterdienst |
Der Controller Service, der verwendet wird, um Anmeldeinformationen für Google Cloud Platform zu erhalten. |
et-initial-listing-target |
Specify how initial listing should be handled. Used by ‚Tracking Entities’strategy. |
et-state-cache |
Listed entities are stored in the specified cache storage so that this processor can resume listing across NiFi restart or in case of primary node change. ‚Tracking Entities’strategy require tracking information of all listed entities within the last ‚Tracking Time Window‘. To support large number of entities, the strategy uses DistributedMapCache instead of managed state. Cache key format is ‚ListedEntities::{processorId}(::{nodeId})‘. If it tracks per node listed entities, then the optional ‚::{nodeId}‘ part is added to manage state separately. E.g. cluster wide cache key =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b‘, per node cache key =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3‘ The stored cache content is Gzipped JSON string. The cache key will be deleted when target listing configuration is changed. Used by ‚Tracking Entities’strategy. |
et-time-window |
Specify how long this processor should track already-listed entities. ‚Tracking Entities’strategy can pick any entity whose timestamp is inside the specified time window. For example, if set to ‚30 minutes‘, any entity having timestamp in recent 30 minutes will be the listing target when this processor runs. A listed entity is considered ‚new/updated‘ and a FlowFile is emitted if one of following condition meets: 1. does not exist in the already-listed entities, 2. has newer timestamp than the cached entity, 3. has different size than the cached entity. If a cached entity ‚s timestamp becomes older than specified time window, that entity will be removed from the cached already-listed entities. Used by’Tracking Entities’strategy. |
gcp-project-id |
Google Cloud Projekt-ID |
gcp-retry-count |
Wie viele Wiederholungsversuche unternommen werden sollten, bevor die Weiterleitung an die Beziehung „failure“ erfolgt. |
gcs-bucket |
Bucket des Objekts. |
gcs-prefix |
The prefix used to filter the object list. In most cases, it should end with a forward slash ( ‚/‘). |
gcs-use-generations |
Specifies whether to use GCS Generations, if applicable. If false, only the latest version of each object will be returned. |
listing-strategy |
Legen Sie fest, wie neue/aktualisierte Entitäten ermittelt werden sollen. Weitere Informationen finden Sie in den Beschreibungen der einzelnen Strategien. |
proxy-configuration-service |
Gibt den Proxy-Konfigurations-Controller Service an für die Weiterleitung von Netzwerkanforderungen festl. |
record-writer |
Gibt den Record Writer an, der zum Erstellen der Liste verwendet werden soll. Wenn nicht angegeben, wird für jede aufgelistete Entität ein FlowFile erstellt. Wenn der Record Writer angegeben ist, werden alle Entitäten in ein einziges FlowFile geschrieben, anstatt Attribute zu einzelnen FlowFiles hinzuzufügen. |
storage-api-url |
Überschreibt die Standardspeicher-URL. Durch Konfiguration einer alternativen Storage-API-URL wird auch der HTTP-Host-Header bei Anfragen überschrieben, wie in der Google-Dokumentation zu Private Service Connections beschrieben. |
Statusmanagement¶
Bereiche |
Beschreibung |
|---|---|
CLUSTER |
Nach dem Auflisten der Schlüssel wird der Zeitstempel des neuesten Schlüssels zusammen mit den Schlüsseln gespeichert, die denselben Zeitstempel haben. Dadurch kann der Prozessor bei der nächsten Ausführung des Prozessors nur Schlüssel auflisten, die nach diesem Datum hinzugefügt oder geändert wurden. Der Status wird im gesamten Cluster gespeichert, sodass dieser Prozessor nur auf dem primären Knoten ausgeführt werden kann. Wenn ein neuer primärer Knoten ausgewählt wird, kann der neue Knoten dort weitermachen, wo der vorherige Knoten aufgehört hat, ohne die Daten zu duplizieren. |
Beziehungen¶
Name |
Beschreibung |
|---|---|
success |
FlowFiles werden nach einer erfolgreichen Google Cloud Storage-Operation an diese Beziehung weitergeleitet. |
Schreibt Attribute¶
Name |
Beschreibung |
|---|---|
filename |
Der Name der Datei |
gcs.bucket |
Bucket des Objekts. |
gcs.key |
Name des Objekts. |
gcs.size |
Größe des Objekts. |
gcs.cache.control |
Daten-Cache-Steuerung des Objekts. |
gcs.component.count |
Die Anzahl der Komponenten, aus denen das Objekt besteht. |
gcs.content.disposition |
Die Dateninhaltsdisposition des Objekts. |
gcs.content.encoding |
Die Inhaltscodierung des Objekts. |
gcs.content.language |
Die Inhaltssprache des Objekts. |
mime.type |
Die MIME-/Content-Type des Objekts |
gcs.crc32c |
Die CRC32C-Prüfsumme der Daten des Objekts, codiert in base64 in Big-Endian-Reihenfolge. |
gcs.create.time |
Die Erstellungszeit des Objekts (Millisekunden) |
gcs.update.time |
Der Zeitpunkt der letzten Änderung des Objekts (Millisekunden) |
gcs.encryption.algorithm |
Der zur Verschlüsselung des Objekts verwendete Algorithmus. |
gcs.encryption.sha256 |
Der SHA256-Hashwert des zur Verschlüsselung des Objekts verwendeten Schlüssels |
gcs.etag |
Das HTTP 1.1 Entity-Tag für das Objekt. |
gcs.generated.id |
Der Dienst, der für das Objekt generiert wurde |
gcs.generation |
Die Datenerzeugung des Objekts. |
gcs.md5 |
Der MD5-Hashwert der Daten des Objekts, codiert in base64. |
gcs.media.link |
Der Medien-Download-Link zum Objekt. |
gcs.metageneration |
Die Metageneration des Objekts. |
gcs.owner |
Der Eigentümer (Hochladende) des Objekts. |
gcs.owner.type |
Der ACL-Entitätstyp des Uploaders des Objekts. |
gcs.acl.owner |
Eine durch Kommas getrennte Liste von ACL-Entitäten, die als Eigentümer Zugriff auf das Objekt haben. Entitäten sind entweder E-Mail-Adressen, Domänen oder Projekt-IDs. |
gcs.acl.writer |
Eine durch Kommas getrennte Liste von ACL-Entitäten, die Schreibzugriff auf das Objekt haben. Entitäten sind entweder E-Mail-Adressen, Domänen oder Projekt-IDs. |
gcs.acl.reader |
Eine durch Kommas getrennte Liste von ACL Entitäten, die Lesezugriff auf das Objekt haben. Entitäten sind entweder E-Mail-Adressen, Domänen oder Projekt-IDs. |
gcs.uri |
Die URI des Objekts als Zeichenfolge. |