ListBoxFile 2025.10.2.19¶
Bundle¶
org.apache.nifi | nifi-box-nar
Beschreibung¶
Listet die Dateien in einem Box-Ordner auf. Jede aufgelistete Datei kann zu einem FlowFile führen, wobei die Metadaten als FlowFile-Attribute geschrieben werden. Oder – falls die Eigenschaft „Record Writer“ gesetzt ist – das gesamte Ergebnis wird als Datensätze in ein einzelnes FlowFile geschrieben. Dieser Prozessor ist für den Betrieb auf dem primären Knoten in einem Cluster vorgesehen. Wenn sich der primäre Knoten ändert, macht der neue primäre Knoten dort weiter, wo der vorherige Knoten aufgehört hat, ohne alle Daten zu duplizieren.
Eingabeanforderung¶
FORBIDDEN
Unterstützt sensible dynamische Eigenschaften¶
false
Eigenschaften¶
Eigenschaft |
Beschreibung |
|---|---|
Box Client Service |
Controller Service, der verwendet wird, um eine Box-API-Verbindung zu erhalten. |
Folder ID |
Die ID des Ordners, aus dem die Liste der Dateien abgerufen werden soll. |
Minimum File Age |
Das Mindestalter, das eine Datei haben muss, um berücksichtigt zu werden. Alle Dateien, die jünger sind als dieser Wert, werden ignoriert. |
Search Recursively |
Bei „true“ wird die Liste der Dateien aus den Unterordnern aufgenommen. Andernfalls werden nur Dateien zurückgegeben, die sich in dem Ordner befinden, der durch die Eigenschaft „Folder ID“ definiert ist. |
et-initial-listing-target |
Specify how initial listing should be handled. Used by ‚Tracking Entities’strategy. |
et-state-cache |
Listed entities are stored in the specified cache storage so that this processor can resume listing across NiFi restart or in case of primary node change. ‚Tracking Entities’strategy require tracking information of all listed entities within the last ‚Tracking Time Window‘. To support large number of entities, the strategy uses DistributedMapCache instead of managed state. Cache key format is ‚ListedEntities::{processorId}(::{nodeId})‘. If it tracks per node listed entities, then the optional ‚::{nodeId}‘ part is added to manage state separately. E.g. cluster wide cache key =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b‘, per node cache key =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3‘ The stored cache content is Gzipped JSON string. The cache key will be deleted when target listing configuration is changed. Used by ‚Tracking Entities’strategy. |
et-time-window |
Specify how long this processor should track already-listed entities. ‚Tracking Entities’strategy can pick any entity whose timestamp is inside the specified time window. For example, if set to ‚30 minutes‘, any entity having timestamp in recent 30 minutes will be the listing target when this processor runs. A listed entity is considered ‚new/updated‘ and a FlowFile is emitted if one of following condition meets: 1. does not exist in the already-listed entities, 2. has newer timestamp than the cached entity, 3. has different size than the cached entity. If a cached entity ‚s timestamp becomes older than specified time window, that entity will be removed from the cached already-listed entities. Used by’Tracking Entities’strategy. |
listing-strategy |
Legen Sie fest, wie neue/aktualisierte Entitäten ermittelt werden sollen. Weitere Informationen finden Sie in den Beschreibungen der einzelnen Strategien. |
record-writer |
Gibt den Record Writer an, der zum Erstellen der Liste verwendet werden soll. Wenn nicht angegeben, wird für jede aufgelistete Entität ein FlowFile erstellt. Wenn der Record Writer angegeben ist, werden alle Entitäten in ein einziges FlowFile geschrieben, anstatt Attribute zu einzelnen FlowFiles hinzuzufügen. |
Statusmanagement¶
Bereiche |
Beschreibung |
|---|---|
CLUSTER |
Der Prozessor speichert die notwendigen Daten, um zu verfolgen, welche Dateien bereits aufgelistet wurden. Was genau gespeichert werden muss, hängt von der „Listing Strategy“ ab. |
Beziehungen¶
Name |
Beschreibung |
|---|---|
success |
Alle FlowFiles, die empfangen werden, werden an die Beziehung „success“ weitergeleitet. |
Schreibt Attribute¶
Name |
Beschreibung |
|---|---|
box.id |
Die ID der Datei |
filename |
Der Name der Datei |
Pfad |
Der Ordnerpfad, in dem die Datei gespeichert ist |
box.size |
Die Größe der Datei |
box.timestamp |
Der Zeitpunkt der letzten Änderung der Datei |