ListS3 2025.10.2.19¶
Bundle¶
org.apache.nifi | nifi-aws-nar
Beschreibung¶
Ruft eine Liste von Objekten aus einem S3-Bucket ab. Für jedes aufgelistete Objekt wird ein FlowFile erstellt, das das Objekt darstellt, sodass es in Verbindung mit FetchS3Object abgerufen werden kann. Dieser Prozessor ist für den Betrieb auf dem primären Knoten in einem Cluster vorgesehen. Wenn sich der primäre Knoten ändert, macht der neue primäre Knoten dort weiter, wo der vorherige Knoten aufgehört hat, ohne alle Daten zu duplizieren.
Eingabeanforderung¶
FORBIDDEN
Unterstützt sensible dynamische Eigenschaften¶
false
Eigenschaften¶
Eigenschaft |
Beschreibung |
|---|---|
AWS-Anmeldeinformationen-Anbieterdienst |
Der Controller Service, der verwendet wird, um AWS-Anmeldeinformationsanbieter zu erhalten |
Bucket |
Der S3-Bucket, mit dem interagiert werden soll |
Communications Timeout |
Die Zeitspanne, die gewartet wird, um eine Verbindung zu AWS herzustellen oder Daten von AWS zu empfangen, bevor es zu einem Timeout kommt. |
Custom Signer Class Name |
Fully qualified class name of the custom signer class. The signer must implement com.amazonaws.auth. Signer interface. |
Custom Signer Module Location |
Durch Kommas getrennte Liste von Pfaden zu Dateien und/oder Verzeichnissen, die die JAR-Datei des benutzerdefinierten Signierers und deren Abhängigkeiten (falls vorhanden) enthalten. |
Delimiter |
Die Zeichenfolge, die zur Abgrenzung von Verzeichnissen innerhalb des Buckets verwendet wird. Konsultieren Sie die AWS-Dokumentation für die korrekte Verwendung dieses Feldes. |
Endpoint Override URL |
Endpunkt-URL, die anstelle des AWS Standardwerts verwendet werden soll, einschließlich Schema, Host, Port und Pfad. Die AWS-Bibliotheken wählen eine Endpunkt-URL auf der Grundlage der AWS-Region aus, aber diese Eigenschaft überschreibt die ausgewählten Endpunkt-URL und ermöglicht die Verwendung mit anderen S3-kompatiblen Endpunkten. |
List Type |
Legt fest, ob der ursprüngliche „List-Objects“-Endpunkt oder der neuere „List-Objects-Version-2“-Endpunkt verwendet werden soll. |
Listing Batch Size |
Wenn Sie keinen Record Writer verwenden, bestimmt diese Eigenschaft, wie viele S3-Objekte in einem einzelnen Batch aufgelistet werden sollen. Sobald diese Anzahl erreicht ist, werden die erstellten FlowFiles aus dem Prozessor übertragen. Wenn Sie diesen Wert niedriger einstellen, kann dies zu einer geringeren Latenz führen, da die FlowFiles gesendet werden, bevor das komplette Freigabeangebot abgeschlossen ist. Allerdings kann dies die Leistung erheblich beeinträchtigen. Bei größeren Werten wird möglicherweise mehr Speicher benötigt, um alle Informationen zu speichern, bevor die FlowFiles gesendet werden. Diese Eigenschaft wird bei Verwendung eines Record Writers ignoriert, da einer der Hauptvorteile des Record Writers darin besteht, dass er die gesamte Auflistung als ein einziges FlowFile ausgeben kann. |
Listing Strategy |
Legen Sie fest, wie neue/aktualisierte Entitäten ermittelt werden sollen. Weitere Informationen finden Sie in den Beschreibungen der einzelnen Strategien. |
Maximum Object Age |
Das maximale Alter, das ein S3-Objekt haben darf, um berücksichtigt zu werden. Jedes Objekt, das älter als diese Zeitspanne ist (gemäß dem Datum der letzten Änderung), wird ignoriert |
Minimum Object Age |
Das Mindestalter, das ein S3-Objekt haben muss, um berücksichtigt zu werden; jedes Objekt, das jünger ist als diese Zeitspanne (entsprechend dem Datum der letzten Änderung), wird ignoriert. |
Prefix |
Das Präfix, das zum Filtern der Objektliste verwendet wird. Beginnen Sie nicht mit einem Schrägstrich „/“. In den meisten Fällen sollte er mit einem Schrägstrich „/“ enden. |
Record Writer |
Gibt den Record Writer an, der zum Erstellen der Liste verwendet werden soll. Wenn nicht angegeben, wird für jede aufgelistete Entität ein FlowFile erstellt. Wenn der Record Writer angegeben ist, werden alle Entitäten in ein einziges FlowFile geschrieben, anstatt Attribute zu einzelnen FlowFiles hinzuzufügen. |
Region |
Die AWS-Region, mit der Sie sich verbinden möchten. |
Requester Pays |
If true, indicates that the requester consents to pay any charges associated with listing the S3 bucket. This sets the ‚x-amz-request-payer‘ header to ‚requester‘. Note that this setting is not applicable when ‚Use Versions‘ is ‚true‘. |
SSL Context Service |
Gibt einen optionalen SSL Context Service an, der, falls vorhanden, zum Erstellen von Verbindungen verwendet wird |
Signer Override |
Die AWS-S3-Bibliothek verwendet standardmäßig die Signaturversion 4, aber mit dieser Eigenschaft können Sie den Signierer der Version 2 angeben, um ältere S3-kompatible Dienste zu unterstützen oder sogar Ihre eigene benutzerdefinierte Signierer-Implementierung einzubinden. |
Use Versions |
Specifies whether to use S3 versions, if applicable. If false, only the latest version of each object will be returned. |
Write Object Tags |
Wenn diese Einstellung auf „true“ gesetzt ist, werden die mit dem S3-Objekt verbundenen Tags als FlowFile-Attribute geschrieben. |
Write User Metadata |
Wenn „true“ werden die benutzerdefinierten Metadaten, die mit dem S3-Objekt verbunden sind, zu FlowFile-Attributen/-Datensätzen hinzugefügt |
et-initial-listing-target |
Specify how initial listing should be handled. Used by ‚Tracking Entities’strategy. |
et-state-cache |
Listed entities are stored in the specified cache storage so that this processor can resume listing across NiFi restart or in case of primary node change. ‚Tracking Entities’strategy require tracking information of all listed entities within the last ‚Tracking Time Window‘. To support large number of entities, the strategy uses DistributedMapCache instead of managed state. Cache key format is ‚ListedEntities::{processorId}(::{nodeId})‘. If it tracks per node listed entities, then the optional ‚::{nodeId}‘ part is added to manage state separately. E.g. cluster wide cache key =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b‘, per node cache key =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3‘ The stored cache content is Gzipped JSON string. The cache key will be deleted when target listing configuration is changed. Used by ‚Tracking Entities’strategy. |
et-time-window |
Specify how long this processor should track already-listed entities. ‚Tracking Entities’strategy can pick any entity whose timestamp is inside the specified time window. For example, if set to ‚30 minutes‘, any entity having timestamp in recent 30 minutes will be the listing target when this processor runs. A listed entity is considered ‚new/updated‘ and a FlowFile is emitted if one of following condition meets: 1. does not exist in the already-listed entities, 2. has newer timestamp than the cached entity, 3. has different size than the cached entity. If a cached entity ‚s timestamp becomes older than specified time window, that entity will be removed from the cached already-listed entities. Used by’Tracking Entities’strategy. |
proxy-configuration-service |
Gibt den Proxy-Konfigurations-Controller Service an für die Weiterleitung von Netzwerkanforderungen festl. |
Statusmanagement¶
Bereiche |
Beschreibung |
|---|---|
CLUSTER |
Nach dem Auflisten der Schlüssel wird der Zeitstempel des neuesten Schlüssels zusammen mit den Schlüsseln gespeichert, die denselben Zeitstempel haben. Dadurch kann der Prozessor bei der nächsten Ausführung des Prozessors nur Schlüssel auflisten, die nach diesem Datum hinzugefügt oder geändert wurden. Der Status wird im gesamten Cluster gespeichert, sodass dieser Prozessor nur auf dem primären Knoten ausgeführt werden kann. Wenn ein neuer primärer Knoten ausgewählt wird, kann der neue Knoten dort weitermachen, wo der vorherige Knoten aufgehört hat, ohne die Daten zu duplizieren. |
Beziehungen¶
Name |
Beschreibung |
|---|---|
success |
FlowFiles werden nach erfolgreicher Bearbeitung an diese Beziehung weitergeleitet. |
Schreibt Attribute¶
Name |
Beschreibung |
|---|---|
s3.bucket |
Der Name des S3-Buckets |
s3.region |
Die Region des S3-Buckets |
filename |
Der Name der Datei |
s3.etag |
Das ETag, das verwendet werden kann, um zu sehen, ob sich die Datei geändert hat |
s3.isLatest |
Ein boolescher Wert, der angibt, ob dies die neueste Version des Objekts ist |
s3.lastModified |
Die zuletzt geänderte Zeit in Millisekunden seit der Epoche in UTC time |
s3.length |
Die Größe des Objekts in Bytes |
s3.storeClass |
Die Speicherklasse des Objekts |
s3.version |
Die Version des Objekts, falls zutreffend |
s3.tag.___ |
Wenn „Write Object Tags“ auf „true“ gesetzt ist, werden die Tags, die mit dem aufgelisteten S3-Objekt verbunden sind, als Teil der FlowFile-Attribute geschrieben |
s3.user.metadata.___ |
Wenn „Write User Metadata“ auf „true“ gesetzt ist, werden die benutzerdefinierten Metadaten, die mit dem aufgelisteten S3-Objekt verbunden sind, als Teil der FlowFile-Attribute geschrieben |