ListAzureDataLakeStorage 2025.5.31.15

Bundle

org.apache.nifi | nifi-azure-nar

Beschreibung

Listet das Verzeichnis in einem Azure Data Lake Storage Gen 2-Dateisystem auf

Tags

adlsgen2, azure, cloud, datalake, microsoft, storage

Eingabeanforderung

FORBIDDEN

Unterstützt sensible dynamische Eigenschaften

false

Eigenschaften

Eigenschaft

Beschreibung

Maximum File Age

Das maximale Alter, das eine Datei haben darf, um abgerufen zu werden; alle Dateien, die älter sind als dieser Zeitraum (gemäß dem Datum der letzten Änderung), werden ignoriert.

Maximum File Size

Die maximale Größe, die eine Datei haben darf, um abgerufen zu werden

Minimum File Age

Das Mindestalter, das eine Datei haben muss, um abgerufen zu werden; alle Dateien, die jünger sind als dieser Zeitraum (gemäß dem Datum der letzten Änderung), werden ignoriert.

Minimum File Size

Die Mindestgröße, die eine Datei haben muss, um abgerufen zu werden

adls-credentials-service

Controller Service, der verwendet wird, um Azure-Anmeldeinformationen zu erhalten.

directory-name

Name des Azure Storage-Verzeichnisses. Der Verzeichnisname darf keinen führenden „/“ enthalten. Das Stammverzeichnis kann durch den Wert einer leeren Zeichenfolge angegeben werden. Im Falle des PutAzureDataLakeStorage-Prozessors wird das Verzeichnis erstellt, wenn es noch nicht existiert.

et-initial-listing-target

Legen Sie fest, wie das erste Freigabeangebot behandelt werden soll. Wird von der Strategie „Tracking Entities“ verwendet.

et-state-cache

Freigegebene Entitäten werden im angegebenen Cache-Speicher gespeichert, sodass dieser Prozessor die Freigabe bei einem Neustart von NiFi oder bei einem Wechsel des primären Knotens wieder aufnehmen kann. „Tracking Entities“-Strategie erfordert Tracking-Informationen von allen aufgelisteten Entitäten innerhalb des letzten „Tracking Time Window“. Um eine große Anzahl von Entitäten zu unterstützen, verwendet die Strategie DistributedMapCache anstelle eines verwalteten Zustands. Das Format des Cache-Schlüssels ist „ListedEntities: :{processorId}(::{nodeId})“. Wenn es pro Knoten aufgelistete Entitäten verfolgt, dann wird der optionale Teil „::{nodeId}“ hinzugefügt, um den Status separat zu verwalten. Beispiel: Clusterweiter Cache-Schlüssel = „ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b“, Cache-Schlüssel pro Knoten = „ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3“ Der gespeicherte Cache-Inhalt ist eine Gzipped JSON-Zeichenkette. Der Cache-Schlüssel wird gelöscht, wenn die Konfiguration der Zielliste geändert wird. Wird von der Strategie „Tracking Entities“ verwendet.

et-time-window

Geben Sie an, wie lange dieser Prozessor bereits gelistete Entitäten verfolgen soll. Die Strategie „Tracking Entities“ kann jede Entität auswählen, deren Zeitstempel innerhalb des angegebenen Zeitfensters liegt. Wenn Sie z. B. „30 Minuten“ einstellen, wird jede Entität, deren Zeitstempel in den letzten 30 Minuten liegt, das Ziel des Freigabeangebots sein, wenn dieser Prozessor läuft. Ein gelistete Entität gilt als „neu/aktualisiert“ und ein FlowFile wird ausgegeben, wenn eine der folgenden Bedingungen erfüllt ist: 1. Sie ist nicht in den bereits gelisteten Entitäten vorhanden, 2. Sie hat einen neueren Zeitstempel als die zwischengespeicherte Entität, 3. Sie hat eine andere Größe als die zwischengespeicherte Entität. Wenn der Zeitstempel einer zwischengespeicherten Entität älter ist als das angegebene Zeitfenster, wird diese Entität aus den zwischengespeicherten, bereits gelisteten Entitäten entfernt. Wird von der Strategie „Tracking Entities“ verwendet.

file-filter

Es werden nur Dateien aufgelistet, deren Namen mit dem angegebenen regulären Ausdruck übereinstimmen.

filesystem-name

Name des Azure Storage-Dateisystems (auch Container genannt). Es wird davon ausgegangen, dass es bereits vorhanden ist.

include-temporary-files

Ob temporäre Dateien beim Auflisten der Inhalte konfigurierter Verzeichnispfade berücksichtigt werden sollen.

listing-strategy

Legen Sie fest, wie neue/aktualisierte Entitäten ermittelt werden sollen. Weitere Informationen finden Sie in den Beschreibungen der einzelnen Strategien.

path-filter

Wenn „Recurse Subdirectories“ „true“ ist, werden nur die Unterverzeichnisse durchsucht, deren Pfade dem angegebenen regulären Ausdruck entsprechen.

proxy-configuration-service

Gibt den Proxy-Konfigurations-Controller Service an für die Weiterleitung von Netzwerkanforderungen festl. Im Falle von SOCKS ist nicht garantiert, dass die ausgewählte SOCKS-Version vom Prozessor verwendet wird.

record-writer

Gibt den Record Writer an, der zum Erstellen der Liste verwendet werden soll. Wenn nicht angegeben, wird für jede aufgelistete Entität ein FlowFile erstellt. Wenn der Record Writer angegeben ist, werden alle Entitäten in ein einziges FlowFile geschrieben, anstatt Attribute zu einzelnen FlowFiles hinzuzufügen.

recurse-subdirectories

Gibt an, ob Dateien aus Unterverzeichnissen des Verzeichnisses aufgelistet werden sollen.

Statusmanagement

Bereiche

Beschreibung

CLUSTER

Nach dem Auflisten der Dateien wird der Zeitstempel der neuesten Datei gespeichert. Dadurch kann der Prozessor bei der nächsten Ausführung nur Dateien auflisten, die nach diesem Datum hinzugefügt oder geändert wurden. Der Status wird im gesamten Cluster gespeichert, sodass dieser Prozessor nur auf dem primären Knoten ausgeführt werden kann. Wenn ein neuer primärer Knoten ausgewählt wird, kann der neue Knoten dort weitermachen, wo der vorherige Knoten aufgehört hat, ohne die Daten zu duplizieren.

Beziehungen

Name

Beschreibung

success

Alle FlowFiles, die empfangen werden, werden an die Beziehung „success“ weitergeleitet.

Schreibt Attribute

Name

Beschreibung

azure.filesystem

Der Name des Azure-Dateisystems

azure.filePath

Der vollständige Pfad der Azure-Datei

azure.directory

Der Name des Azure-Verzeichnisses

azure.filename

Der Name der Azure-Datei

azure.length

Die Länge der Azure-Datei

azure.lastModified

Der Zeitpunkt der letzten Änderung der Azure-Datei

azure.etag

Das ETag der Azure Datei

Siehe auch: