ListAzureDataLakeStorage 2025.10.2.19¶

Bundle¶

org.apache.nifi | nifi-azure-nar

Beschreibung¶

Listet das Verzeichnis in einem Azure Data Lake Storage Gen 2-Dateisystem auf

Tags¶

adlsgen2, azure, cloud, datalake, microsoft, storage

Eingabeanforderung¶

FORBIDDEN

Unterstützt sensible dynamische Eigenschaften¶

false

Eigenschaften¶

Eigenschaft	Beschreibung
ADLS Credentials	Controller Service, der verwendet wird, um Azure-Anmeldeinformationen zu erhalten.
Directory Name	Name des Azure Storage-Verzeichnisses. Der Verzeichnisname darf keinen führenden „/“ enthalten. Das Stammverzeichnis kann durch den Wert einer leeren Zeichenfolge angegeben werden. Im Falle des PutAzureDataLakeStorage-Prozessors wird das Verzeichnis erstellt, wenn es noch nicht existiert.
File Filter	Es werden nur Dateien aufgelistet, deren Namen mit dem angegebenen regulären Ausdruck übereinstimmen.
Filesystem Name	Name des Azure Storage-Dateisystems (auch Container genannt). Es wird davon ausgegangen, dass es bereits vorhanden ist.
Include Temporary Files	Ob temporäre Dateien beim Auflisten der Inhalte konfigurierter Verzeichnispfade berücksichtigt werden sollen.
Maximum File Age	Das maximale Alter, das eine Datei haben darf, um abgerufen zu werden; alle Dateien, die älter sind als dieser Zeitraum (gemäß dem Datum der letzten Änderung), werden ignoriert.
Maximum File Size	Die maximale Größe, die eine Datei haben darf, um abgerufen zu werden
Minimum File Age	Das Mindestalter, das eine Datei haben muss, um abgerufen zu werden; alle Dateien, die jünger sind als dieser Zeitraum (gemäß dem Datum der letzten Änderung), werden ignoriert.
Minimum File Size	Die Mindestgröße, die eine Datei haben muss, um abgerufen zu werden
Path Filter	Wenn „Recurse Subdirectories“ „true“ ist, werden nur die Unterverzeichnisse durchsucht, deren Pfade dem angegebenen regulären Ausdruck entsprechen.
Recurse Subdirectories	Gibt an, ob Dateien aus Unterverzeichnissen des Verzeichnisses aufgelistet werden sollen.
et-initial-listing-target	Specify how initial listing should be handled. Used by ‚Tracking Entities’strategy.
et-state-cache	Listed entities are stored in the specified cache storage so that this processor can resume listing across NiFi restart or in case of primary node change. ‚Tracking Entities’strategy require tracking information of all listed entities within the last ‚Tracking Time Window‘. To support large number of entities, the strategy uses DistributedMapCache instead of managed state. Cache key format is ‚ListedEntities::{processorId}(::{nodeId})‘. If it tracks per node listed entities, then the optional ‚::{nodeId}‘ part is added to manage state separately. E.g. cluster wide cache key =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b‘, per node cache key =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3‘ The stored cache content is Gzipped JSON string. The cache key will be deleted when target listing configuration is changed. Used by ‚Tracking Entities’strategy.
et-time-window	Specify how long this processor should track already-listed entities. ‚Tracking Entities’strategy can pick any entity whose timestamp is inside the specified time window. For example, if set to ‚30 minutes‘, any entity having timestamp in recent 30 minutes will be the listing target when this processor runs. A listed entity is considered ‚new/updated‘ and a FlowFile is emitted if one of following condition meets: 1. does not exist in the already-listed entities, 2. has newer timestamp than the cached entity, 3. has different size than the cached entity. If a cached entity ‚s timestamp becomes older than specified time window, that entity will be removed from the cached already-listed entities. Used by’Tracking Entities’strategy.
listing-strategy	Legen Sie fest, wie neue/aktualisierte Entitäten ermittelt werden sollen. Weitere Informationen finden Sie in den Beschreibungen der einzelnen Strategien.
proxy-configuration-service	Gibt den Proxy-Konfigurations-Controller Service an für die Weiterleitung von Netzwerkanforderungen festl. Im Falle von SOCKS ist nicht garantiert, dass die ausgewählte SOCKS-Version vom Prozessor verwendet wird.
record-writer	Gibt den Record Writer an, der zum Erstellen der Liste verwendet werden soll. Wenn nicht angegeben, wird für jede aufgelistete Entität ein FlowFile erstellt. Wenn der Record Writer angegeben ist, werden alle Entitäten in ein einziges FlowFile geschrieben, anstatt Attribute zu einzelnen FlowFiles hinzuzufügen.

Statusmanagement¶

Bereiche	Beschreibung
CLUSTER	Nach dem Auflisten der Dateien wird der Zeitstempel der neuesten Datei gespeichert. Dadurch kann der Prozessor bei der nächsten Ausführung nur Dateien auflisten, die nach diesem Datum hinzugefügt oder geändert wurden. Der Status wird im gesamten Cluster gespeichert, sodass dieser Prozessor nur auf dem primären Knoten ausgeführt werden kann. Wenn ein neuer primärer Knoten ausgewählt wird, kann der neue Knoten dort weitermachen, wo der vorherige Knoten aufgehört hat, ohne die Daten zu duplizieren.

Bereiche

Beschreibung

CLUSTER

Nach dem Auflisten der Dateien wird der Zeitstempel der neuesten Datei gespeichert. Dadurch kann der Prozessor bei der nächsten Ausführung nur Dateien auflisten, die nach diesem Datum hinzugefügt oder geändert wurden. Der Status wird im gesamten Cluster gespeichert, sodass dieser Prozessor nur auf dem primären Knoten ausgeführt werden kann. Wenn ein neuer primärer Knoten ausgewählt wird, kann der neue Knoten dort weitermachen, wo der vorherige Knoten aufgehört hat, ohne die Daten zu duplizieren.

Beziehungen¶

Name	Beschreibung
success	Alle FlowFiles, die empfangen werden, werden an die Beziehung „success“ weitergeleitet.

Schreibt Attribute¶

Name	Beschreibung
azure.filesystem	Der Name des Azure-Dateisystems
azure.filePath	Der vollständige Pfad der Azure-Datei
azure.directory	Der Name des Azure-Verzeichnisses
azure.filename	Der Name der Azure-Datei
azure.length	Die Länge der Azure-Datei
azure.lastModified	Der Zeitpunkt der letzten Änderung der Azure-Datei
azure.etag	Das ETag der Azure Datei