ListS3 2025.10.2.19¶

Bundle¶

org.apache.nifi | nifi-aws-nar

Beschreibung¶

Ruft eine Liste von Objekten aus einem S3-Bucket ab. Für jedes aufgelistete Objekt wird ein FlowFile erstellt, das das Objekt darstellt, sodass es in Verbindung mit FetchS3Object abgerufen werden kann. Dieser Prozessor ist für den Betrieb auf dem primären Knoten in einem Cluster vorgesehen. Wenn sich der primäre Knoten ändert, macht der neue primäre Knoten dort weiter, wo der vorherige Knoten aufgehört hat, ohne alle Daten zu duplizieren.

Tags¶

AWS, Amazon, S3, Liste

Eingabeanforderung¶

FORBIDDEN

Unterstützt sensible dynamische Eigenschaften¶

false

Eigenschaften¶

Eigenschaft	Beschreibung
AWS-Anmeldeinformationen-Anbieterdienst	Der Controller Service, der verwendet wird, um AWS-Anmeldeinformationsanbieter zu erhalten
Bucket	Der S3-Bucket, mit dem interagiert werden soll
Communications Timeout	Die Zeitspanne, die gewartet wird, um eine Verbindung zu AWS herzustellen oder Daten von AWS zu empfangen, bevor es zu einem Timeout kommt.
Custom Signer Class Name	Fully qualified class name of the custom signer class. The signer must implement com.amazonaws.auth. Signer interface.
Custom Signer Module Location	Durch Kommas getrennte Liste von Pfaden zu Dateien und/oder Verzeichnissen, die die JAR-Datei des benutzerdefinierten Signierers und deren Abhängigkeiten (falls vorhanden) enthalten.
Delimiter	Die Zeichenfolge, die zur Abgrenzung von Verzeichnissen innerhalb des Buckets verwendet wird. Konsultieren Sie die AWS-Dokumentation für die korrekte Verwendung dieses Feldes.
Endpoint Override URL	Endpunkt-URL, die anstelle des AWS Standardwerts verwendet werden soll, einschließlich Schema, Host, Port und Pfad. Die AWS-Bibliotheken wählen eine Endpunkt-URL auf der Grundlage der AWS-Region aus, aber diese Eigenschaft überschreibt die ausgewählten Endpunkt-URL und ermöglicht die Verwendung mit anderen S3-kompatiblen Endpunkten.
List Type	Legt fest, ob der ursprüngliche „List-Objects“-Endpunkt oder der neuere „List-Objects-Version-2“-Endpunkt verwendet werden soll.
Listing Batch Size	Wenn Sie keinen Record Writer verwenden, bestimmt diese Eigenschaft, wie viele S3-Objekte in einem einzelnen Batch aufgelistet werden sollen. Sobald diese Anzahl erreicht ist, werden die erstellten FlowFiles aus dem Prozessor übertragen. Wenn Sie diesen Wert niedriger einstellen, kann dies zu einer geringeren Latenz führen, da die FlowFiles gesendet werden, bevor das komplette Freigabeangebot abgeschlossen ist. Allerdings kann dies die Leistung erheblich beeinträchtigen. Bei größeren Werten wird möglicherweise mehr Speicher benötigt, um alle Informationen zu speichern, bevor die FlowFiles gesendet werden. Diese Eigenschaft wird bei Verwendung eines Record Writers ignoriert, da einer der Hauptvorteile des Record Writers darin besteht, dass er die gesamte Auflistung als ein einziges FlowFile ausgeben kann.
Listing Strategy	Legen Sie fest, wie neue/aktualisierte Entitäten ermittelt werden sollen. Weitere Informationen finden Sie in den Beschreibungen der einzelnen Strategien.
Maximum Object Age	Das maximale Alter, das ein S3-Objekt haben darf, um berücksichtigt zu werden. Jedes Objekt, das älter als diese Zeitspanne ist (gemäß dem Datum der letzten Änderung), wird ignoriert
Minimum Object Age	Das Mindestalter, das ein S3-Objekt haben muss, um berücksichtigt zu werden; jedes Objekt, das jünger ist als diese Zeitspanne (entsprechend dem Datum der letzten Änderung), wird ignoriert.
Prefix	Das Präfix, das zum Filtern der Objektliste verwendet wird. Beginnen Sie nicht mit einem Schrägstrich „/“. In den meisten Fällen sollte er mit einem Schrägstrich „/“ enden.
Record Writer	Gibt den Record Writer an, der zum Erstellen der Liste verwendet werden soll. Wenn nicht angegeben, wird für jede aufgelistete Entität ein FlowFile erstellt. Wenn der Record Writer angegeben ist, werden alle Entitäten in ein einziges FlowFile geschrieben, anstatt Attribute zu einzelnen FlowFiles hinzuzufügen.
Region	Die AWS-Region, mit der Sie sich verbinden möchten.
Requester Pays	If true, indicates that the requester consents to pay any charges associated with listing the S3 bucket. This sets the ‚x-amz-request-payer‘ header to ‚requester‘. Note that this setting is not applicable when ‚Use Versions‘ is ‚true‘.
SSL Context Service	Gibt einen optionalen SSL Context Service an, der, falls vorhanden, zum Erstellen von Verbindungen verwendet wird
Signer Override	Die AWS-S3-Bibliothek verwendet standardmäßig die Signaturversion 4, aber mit dieser Eigenschaft können Sie den Signierer der Version 2 angeben, um ältere S3-kompatible Dienste zu unterstützen oder sogar Ihre eigene benutzerdefinierte Signierer-Implementierung einzubinden.
Use Versions	Specifies whether to use S3 versions, if applicable. If false, only the latest version of each object will be returned.
Write Object Tags	Wenn diese Einstellung auf „true“ gesetzt ist, werden die mit dem S3-Objekt verbundenen Tags als FlowFile-Attribute geschrieben.
Write User Metadata	Wenn „true“ werden die benutzerdefinierten Metadaten, die mit dem S3-Objekt verbunden sind, zu FlowFile-Attributen/-Datensätzen hinzugefügt
et-initial-listing-target	Specify how initial listing should be handled. Used by ‚Tracking Entities’strategy.
et-state-cache	Listed entities are stored in the specified cache storage so that this processor can resume listing across NiFi restart or in case of primary node change. ‚Tracking Entities’strategy require tracking information of all listed entities within the last ‚Tracking Time Window‘. To support large number of entities, the strategy uses DistributedMapCache instead of managed state. Cache key format is ‚ListedEntities::{processorId}(::{nodeId})‘. If it tracks per node listed entities, then the optional ‚::{nodeId}‘ part is added to manage state separately. E.g. cluster wide cache key =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b‘, per node cache key =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3‘ The stored cache content is Gzipped JSON string. The cache key will be deleted when target listing configuration is changed. Used by ‚Tracking Entities’strategy.
et-time-window	Specify how long this processor should track already-listed entities. ‚Tracking Entities’strategy can pick any entity whose timestamp is inside the specified time window. For example, if set to ‚30 minutes‘, any entity having timestamp in recent 30 minutes will be the listing target when this processor runs. A listed entity is considered ‚new/updated‘ and a FlowFile is emitted if one of following condition meets: 1. does not exist in the already-listed entities, 2. has newer timestamp than the cached entity, 3. has different size than the cached entity. If a cached entity ‚s timestamp becomes older than specified time window, that entity will be removed from the cached already-listed entities. Used by’Tracking Entities’strategy.
proxy-configuration-service	Gibt den Proxy-Konfigurations-Controller Service an für die Weiterleitung von Netzwerkanforderungen festl.

Statusmanagement¶

Bereiche	Beschreibung
CLUSTER	Nach dem Auflisten der Schlüssel wird der Zeitstempel des neuesten Schlüssels zusammen mit den Schlüsseln gespeichert, die denselben Zeitstempel haben. Dadurch kann der Prozessor bei der nächsten Ausführung des Prozessors nur Schlüssel auflisten, die nach diesem Datum hinzugefügt oder geändert wurden. Der Status wird im gesamten Cluster gespeichert, sodass dieser Prozessor nur auf dem primären Knoten ausgeführt werden kann. Wenn ein neuer primärer Knoten ausgewählt wird, kann der neue Knoten dort weitermachen, wo der vorherige Knoten aufgehört hat, ohne die Daten zu duplizieren.

Bereiche

Beschreibung

CLUSTER

Nach dem Auflisten der Schlüssel wird der Zeitstempel des neuesten Schlüssels zusammen mit den Schlüsseln gespeichert, die denselben Zeitstempel haben. Dadurch kann der Prozessor bei der nächsten Ausführung des Prozessors nur Schlüssel auflisten, die nach diesem Datum hinzugefügt oder geändert wurden. Der Status wird im gesamten Cluster gespeichert, sodass dieser Prozessor nur auf dem primären Knoten ausgeführt werden kann. Wenn ein neuer primärer Knoten ausgewählt wird, kann der neue Knoten dort weitermachen, wo der vorherige Knoten aufgehört hat, ohne die Daten zu duplizieren.

Beziehungen¶

Name	Beschreibung
success	FlowFiles werden nach erfolgreicher Bearbeitung an diese Beziehung weitergeleitet.

Schreibt Attribute¶

Name	Beschreibung
s3.bucket	Der Name des S3-Buckets
s3.region	Die Region des S3-Buckets
filename	Der Name der Datei
s3.etag	Das ETag, das verwendet werden kann, um zu sehen, ob sich die Datei geändert hat
s3.isLatest	Ein boolescher Wert, der angibt, ob dies die neueste Version des Objekts ist
s3.lastModified	Die zuletzt geänderte Zeit in Millisekunden seit der Epoche in UTC time
s3.length	Die Größe des Objekts in Bytes
s3.storeClass	Die Speicherklasse des Objekts
s3.version	Die Version des Objekts, falls zutreffend
s3.tag.___	Wenn „Write Object Tags“ auf „true“ gesetzt ist, werden die Tags, die mit dem aufgelisteten S3-Objekt verbunden sind, als Teil der FlowFile-Attribute geschrieben
s3.user.metadata.___	Wenn „Write User Metadata“ auf „true“ gesetzt ist, werden die benutzerdefinierten Metadaten, die mit dem aufgelisteten S3-Objekt verbunden sind, als Teil der FlowFile-Attribute geschrieben