ListSmb 2025.5.31.15

Bundle

org.apache.nifi | nifi-smb-nar

Beschreibung

Listet konkrete Dateien auf, die über das SMB-Protokoll freigegeben wurden. Jede aufgelistete Datei kann zu einem FlowFile führen, wobei die Metadaten als FlowFile-Attribute geschrieben werden. Oder – falls die Eigenschaft „Record Writer“ gesetzt ist – das gesamte Ergebnis wird als Datensätze in ein einzelnes FlowFile geschrieben. Dieser Prozessor ist für den Betrieb auf dem primären Knoten in einem Cluster vorgesehen. Wenn sich der primäre Knoten ändert, macht der neue primäre Knoten dort weiter, wo der vorherige Knoten aufgehört hat, ohne alle Daten zu duplizieren.

Tags

list, samba, smb, cifs, files

Eingabeanforderung

FORBIDDEN

Unterstützt sensible dynamische Eigenschaften

false

Eigenschaften

Eigenschaft

Beschreibung

directory

Der Netzwerkordner, aus dem Dateien aufgelistet werden sollen. Dies ist der verbleibende relative Pfad nach der Freigabe: smb://HOSTNAME:PORT/SHARE/[DIRECTORY]/sub/directories. Es ist auch möglich, Unterverzeichnisse hinzuzufügen. Der angegebene Pfad zur Remote-Dateifreigabe muss existieren. Dies kann mithilfe der Verifizierung überprüft werden. Sie können Windows- und Linux-Verzeichnistrennzeichen mischen.

et-initial-listing-target

Legen Sie fest, wie das erste Freigabeangebot behandelt werden soll. Wird von der Strategie „Tracking Entities“ verwendet.

et-state-cache

Freigegebene Entitäten werden im angegebenen Cache-Speicher gespeichert, sodass dieser Prozessor die Freigabe bei einem Neustart von NiFi oder bei einem Wechsel des primären Knotens wieder aufnehmen kann. „Tracking Entities“-Strategie erfordert Tracking-Informationen von allen aufgelisteten Entitäten innerhalb des letzten „Tracking Time Window“. Um eine große Anzahl von Entitäten zu unterstützen, verwendet die Strategie DistributedMapCache anstelle eines verwalteten Zustands. Das Format des Cache-Schlüssels ist „ListedEntities: :{processorId}(::{nodeId})“. Wenn es pro Knoten aufgelistete Entitäten verfolgt, dann wird der optionale Teil „::{nodeId}“ hinzugefügt, um den Status separat zu verwalten. Beispiel: Clusterweiter Cache-Schlüssel = „ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b“, Cache-Schlüssel pro Knoten = „ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3“ Der gespeicherte Cache-Inhalt ist eine Gzipped JSON-Zeichenkette. Der Cache-Schlüssel wird gelöscht, wenn die Konfiguration der Zielliste geändert wird. Wird von der Strategie „Tracking Entities“ verwendet.

et-time-window

Geben Sie an, wie lange dieser Prozessor bereits gelistete Entitäten verfolgen soll. Die Strategie „Tracking Entities“ kann jede Entität auswählen, deren Zeitstempel innerhalb des angegebenen Zeitfensters liegt. Wenn Sie z. B. „30 Minuten“ einstellen, wird jede Entität, deren Zeitstempel in den letzten 30 Minuten liegt, das Ziel des Freigabeangebots sein, wenn dieser Prozessor läuft. Ein gelistete Entität gilt als „neu/aktualisiert“ und ein FlowFile wird ausgegeben, wenn eine der folgenden Bedingungen erfüllt ist: 1. Sie ist nicht in den bereits gelisteten Entitäten vorhanden, 2. Sie hat einen neueren Zeitstempel als die zwischengespeicherte Entität, 3. Sie hat eine andere Größe als die zwischengespeicherte Entität. Wenn der Zeitstempel einer zwischengespeicherten Entität älter ist als das angegebene Zeitfenster, wird diese Entität aus den zwischengespeicherten, bereits gelisteten Entitäten entfernt. Wird von der Strategie „Tracking Entities“ verwendet.

file-filter

Es werden nur Dateien aufgelistet, deren Namen mit dem angegebenen regulären Ausdruck übereinstimmen.

filename-suffix-filter

Dateien, die mit dem angegebenen Suffix enden, werden ausgelassen. Kann verwendet werden, um sicherzustellen, dass Dateien, die noch hochgeladen werden, nicht mehrfach aufgelistet werden, indem diesen Dateien ein Suffix hinzugefügt und dieses Suffix nach Abschluss des Uploads wieder entfernt wird. Dies ist sehr empfehlenswert, wenn Sie die Auflistungsstrategien „Tracking Entities“ oder „Tracking Timestamps“ verwenden.

initial-listing-strategy

Gibt an, wie vorhandene Dateien auf der SMB-Freigabe behandelt werden sollen, wenn der Prozessor zum ersten Mal gestartet wird (oder sein Status gelöscht wurde).

initial-listing-timestamp

Der Zeitstempel, ab dem die Dateien aufgelistet werden, wenn der Prozessor zum ersten Mal gestartet wird (oder sein Status gelöscht wurde). Der Wert kann als Epoch-Zeitstempel in Millisekunden oder als UTC-Datumszeit in einem Format wie 2025-02-01T00:00:00Z angegeben werden.

listing-strategy

Legen Sie fest, wie neue/aktualisierte Entitäten ermittelt werden sollen. Weitere Informationen finden Sie in den Beschreibungen der einzelnen Strategien.

max-file-age

Alle Dateien, die älter als der angegebene Wert sind, werden ausgelassen.

max-file-size

Jede Datei, die größer als der angegebene Wert ist, wird ausgelassen.

min-file-age

Das Mindestalter, das eine Datei haben muss, um aufgelistet zu werden; alle Dateien, die jünger sind als dieser Zeitraum, werden ignoriert.

min-file-size

Jede Datei, die kleiner als der angegebene Wert ist, wird ausgelassen.

path-filter

Es werden nur Dateien aufgelistet, deren Pfade (bis zum übergeordneten Verzeichnis der Datei) mit dem angegebenen regulären Ausdruck übereinstimmen.

record-writer

Gibt den Record Writer an, der zum Erstellen der Liste verwendet werden soll. Wenn nicht angegeben, wird für jede aufgelistete Entität ein FlowFile erstellt. Wenn der Record Writer angegeben ist, werden alle Entitäten in ein einziges FlowFile geschrieben, anstatt Attribute zu einzelnen FlowFiles hinzuzufügen.

smb-client-provider-service

Gibt den SMB-Client-Anbieter an, der für die Erstellung von SMB-Verbindungen verwendet werden soll.

target-system-timestamp-precision

Geben Sie die Zeitstempelgenauigkeit auf dem Zielsystem an. Da dieser Prozessor den Zeitstempel von Entitäten verwendet, um zu entscheiden, welche aufgelistet werden sollen, ist es wichtig, die richtige Zeitstempelgenauigkeit zu verwenden.

Statusmanagement

Bereiche

Beschreibung

CLUSTER

Nach dem Erstellen einer Dateiliste kann der Status der vorherigen Auflistung gespeichert werden, um Dateien fortlaufend ohne Duplikate aufzulisten.

Beziehungen

Name

Beschreibung

success

Alle FlowFiles, die empfangen werden, werden an die Beziehung „success“ weitergeleitet.

Schreibt Attribute

Name

Beschreibung

filename

Der Name der Datei, die aus dem Dateisystem gelesen wurde.

shortName

Der Kurzname der Datei, die aus dem Dateisystem gelesen wurde.

Pfad

Der Pfad wird auf den relativen Pfad des Verzeichnisses der Datei auf dem Remote-Dateisystem im Vergleich zum Share-Stammverzeichnis gesetzt. Wenn ein Remote-Speicherort unter smb://HOSTNAME:PORT/SHARE/DIRECTORY definiert ist und eine Datei aus smb://HOSTNAME:PORT/SHARE/DIRECTORY/sub/folder/file aufgelistet wird, dann wird das Attribut „DIRECTORY/sub/folder“ gesetzt.

serviceLocation

Die SMB URL der Freigabe.

lastModifiedTime

Der Zeitstempel, wann der Inhalt der Datei im Dateisystem geändert wurde, als „yyyy-MM-dd’T’HH: mm:ss“.

creationTime

Der Zeitstempel, wann die Datei im Dateisystem erstellt wurde als „yyyy-MM-dd’T’HH: mm:ss“.

lastAccessTime

Der Zeitstempel, wann auf die Datei im Dateisystem zugegriffen wurde, als „yyyy-MM-dd’T’HH: mm:ss“.

changeTime

Der Zeitstempel, wann die Dateiattribute im Dateisystem geändert wurden, als „yyyy-MM-dd’T’HH: mm:ss“.

size

Die Größe der Datei in Bytes.

allocationSize

Die Anzahl der Bytes, die für die Datei auf dem Server reserviert sind.

Siehe auch: