ListAzureBlobStorage_v12 2025.10.9.21¶
Bundle¶
org.apache.nifi | nifi-azure-nar
Beschreibung¶
Listet Blobs in einem Azure Blob Storage-Container auf. Die Details der Auflistung sind an ein leeres FlowFile angehängt, das mit FetchAzureBlobStorage verwendet wird. Dieser Prozessor ist für den Betrieb auf dem primären Knoten in einem Cluster vorgesehen. Wenn sich der primäre Knoten ändert, macht der neue primäre Knoten dort weiter, wo der vorherige Knoten aufgehört hat, ohne alle Daten zu duplizieren. Der Prozessor verwendet die Azure Blob Storage Client-Bibliothek v12.
Eingabeanforderung¶
FORBIDDEN
Unterstützt sensible dynamische Eigenschaften¶
false
Eigenschaften¶
Eigenschaft |
Beschreibung |
|---|---|
Blob Name Prefix |
Suchpräfix für Auflistung |
Container Name |
Name des Azure-Speichercontainers. Im Falle von PutAzureBlobStorage kann ein Container erstellt werden, wenn er nicht existiert. |
Entity Tracking Initial Listing Target |
Geben Sie an, wie das erstmalige Freigabeangebot behandelt werden soll. Wird von der „Entitäten verfolgen“-Strategie verwendet. |
Entity Tracking State Cache |
Die aufgelisteten Entitäten werden im angegebenen Cachespeicher gespeichert, sodass dieser Prozessor das Freigabeangebot über den NiFi-Neustart hinweg oder im Falle einer Änderung des Primärknotens fortsetzen kann. Die Strategie „Entitäten verfolgen“ erfordert Verfolgungsinformationen zu allen aufgelisteten Entitäten innerhalb des letzten Zeitfensters zur Verfolgung. Um eine große Anzahl von Entitäten zu unterstützen, verwendet die Strategie DistributedMapCache anstelle von verwaltetem Status. Das Format des Cacheschlüssels ist ‚ListedEntities::{processorId}(::{nodeId})‘. Wenn die aufgelisteten Entitäten pro Knoten verfolgt werden, wird der optionale Teil ‚::{nodeId}‘ hinzugefügt, um den Status separat zu verwalten. Beispiel: Clusterweiter Cache-Schlüssel =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b‘, pro Knoten-Cacheschlüssel =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3‘ Der Inhalt des gespeicherten Cache ist eine Gzipped JSON-Zeichenfolge. Der Cacheschlüssel wird gelöscht, wenn die Konfiguration des Ziel-Freigabeangebots geändert wird. Wird von der „Entitäten verfolgen“-Strategie verwendet. |
Entity Tracking Time Window |
Geben Sie an, wie lange dieser Prozessor bereits aufgelistete Entitäten verfolgen soll. Die Strategie „Entitäten verfolgen“ kann jede Entität auswählen, deren Zeitstempel innerhalb des angegebenen Zeitfensters liegt. Werden z. B. „30 Minuten“ eingestellt, wird jede Entität, deren Zeitstempel in den letzten 30 Minuten liegt, zum Ziel des Freigabeangebots, wenn dieser Prozessor ausgeführt wird. Eine aufgelistete Entität gilt als „neu/aktualisiert“ und wird als FlowFile ausgegeben, wenn eine der folgenden Bedingungen erfüllt ist: 1. existiert nicht in den bereits aufgelisteten Entitäten, 2. hat einen neueren Zeitstempel als die zwischengespeicherte Entität, 3. hat eine andere Größe als die zwischengespeicherte Entität. Wenn der Zeitstempel einer zwischengespeicherten Entität älter wird als das angegebene Zeitfenster, wird diese Entität aus den zwischengespeicherten, bereits aufgelisteten Entitäten entfernt. Wird von der „Entitäten verfolgen“-Strategie verwendet. |
Listing Strategy |
Legen Sie fest, wie neue/aktualisierte Entitäten ermittelt werden sollen. Weitere Informationen finden Sie in den Beschreibungen der einzelnen Strategien. |
Maximum File Age |
Das maximale Alter, das eine Datei haben darf, um abgerufen zu werden; alle Dateien, die älter sind als dieser Zeitraum (gemäß dem Datum der letzten Änderung), werden ignoriert. |
Maximum File Size |
Die maximale Größe, die eine Datei haben darf, um abgerufen zu werden |
Minimum File Age |
Das Mindestalter, das eine Datei haben muss, um abgerufen zu werden; alle Dateien, die jünger sind als dieser Zeitraum (gemäß dem Datum der letzten Änderung), werden ignoriert. |
Minimum File Size |
Die Mindestgröße, die eine Datei haben muss, um abgerufen zu werden |
Record Writer |
Gibt den Record Writer an, der zum Erstellen der Liste verwendet werden soll. Wenn nicht angegeben, wird für jede aufgelistete Entität ein FlowFile erstellt. Wenn der Record Writer angegeben ist, werden alle Entitäten in ein einziges FlowFile geschrieben, anstatt Attribute zu einzelnen FlowFiles hinzuzufügen. |
Storage Credentials |
Controller Service, der verwendet wird, um Anmeldeinformationen für Azure Blob Storage zu erhalten. |
proxy-configuration-service |
Gibt den Proxy-Konfigurations-Controller Service an für die Weiterleitung von Netzwerkanforderungen festl. Im Falle von SOCKS ist nicht garantiert, dass die ausgewählte SOCKS-Version vom Prozessor verwendet wird. |
Statusmanagement¶
Bereiche |
Beschreibung |
|---|---|
CLUSTER |
Nach dem Auflisten der Blobs wird der Zeitstempel des neuesten Blobs gespeichert, wenn die Auflistungsstrategie „Tracking Timestamps“ verwendet wird (Standard). Dadurch kann der Prozessor bei der nächsten Ausführung des Prozessors nur Blobs auflisten, die nach diesem Datum hinzugefügt oder geändert wurden. Der Status wird im gesamten Cluster gespeichert, sodass dieser Prozessor nur auf dem primären Knoten ausgeführt werden kann. Wenn ein neuer primärer Knoten ausgewählt wird, kann der neue Knoten dort weitermachen, wo der vorherige Knoten aufgehört hat, ohne die Daten zu duplizieren. |
Beziehungen¶
Name |
Beschreibung |
|---|---|
success |
Alle FlowFiles, die empfangen werden, werden an die Beziehung „success“ weitergeleitet. |
Schreibt Attribute¶
Name |
Beschreibung |
|---|---|
azure.container |
Der Name des Azure Blob Storage Container |
azure.blobname |
Der Name des Blobs auf Azure Blob Storage |
azure.primaryUri |
Primärer Speicherort des Blob |
azure.etag |
ETag des Blob |
azure.blobtype |
Typ des Blob (entweder BlockBlob, PageBlob oder AppendBlob) |
mime.type |
MIME-Typ des Inhalts |
lang |
Sprachcode für den Inhalt |
azure.timestamp |
Zeitstempel des Blob |
azure.length |
Länge des Blob |