ListAzureBlobStorage_v12 2025.10.9.21

Bundle

org.apache.nifi | nifi-azure-nar

Beschreibung

Listet Blobs in einem Azure Blob Storage-Container auf. Die Details der Auflistung sind an ein leeres FlowFile angehängt, das mit FetchAzureBlobStorage verwendet wird. Dieser Prozessor ist für den Betrieb auf dem primären Knoten in einem Cluster vorgesehen. Wenn sich der primäre Knoten ändert, macht der neue primäre Knoten dort weiter, wo der vorherige Knoten aufgehört hat, ohne alle Daten zu duplizieren. Der Prozessor verwendet die Azure Blob Storage Client-Bibliothek v12.

Tags

azure, blob, cloud, microsoft, storage

Eingabeanforderung

FORBIDDEN

Unterstützt sensible dynamische Eigenschaften

false

Eigenschaften

Eigenschaft

Beschreibung

Blob Name Prefix

Suchpräfix für Auflistung

Container Name

Name des Azure-Speichercontainers. Im Falle von PutAzureBlobStorage kann ein Container erstellt werden, wenn er nicht existiert.

Entity Tracking Initial Listing Target

Geben Sie an, wie das erstmalige Freigabeangebot behandelt werden soll. Wird von der „Entitäten verfolgen“-Strategie verwendet.

Entity Tracking State Cache

Die aufgelisteten Entitäten werden im angegebenen Cachespeicher gespeichert, sodass dieser Prozessor das Freigabeangebot über den NiFi-Neustart hinweg oder im Falle einer Änderung des Primärknotens fortsetzen kann. Die Strategie „Entitäten verfolgen“ erfordert Verfolgungsinformationen zu allen aufgelisteten Entitäten innerhalb des letzten Zeitfensters zur Verfolgung. Um eine große Anzahl von Entitäten zu unterstützen, verwendet die Strategie DistributedMapCache anstelle von verwaltetem Status. Das Format des Cacheschlüssels ist ‚ListedEntities::{processorId}(::{nodeId})‘. Wenn die aufgelisteten Entitäten pro Knoten verfolgt werden, wird der optionale Teil ‚::{nodeId}‘ hinzugefügt, um den Status separat zu verwalten. Beispiel: Clusterweiter Cache-Schlüssel =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b‘, pro Knoten-Cacheschlüssel =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3‘ Der Inhalt des gespeicherten Cache ist eine Gzipped JSON-Zeichenfolge. Der Cacheschlüssel wird gelöscht, wenn die Konfiguration des Ziel-Freigabeangebots geändert wird. Wird von der „Entitäten verfolgen“-Strategie verwendet.

Entity Tracking Time Window

Geben Sie an, wie lange dieser Prozessor bereits aufgelistete Entitäten verfolgen soll. Die Strategie „Entitäten verfolgen“ kann jede Entität auswählen, deren Zeitstempel innerhalb des angegebenen Zeitfensters liegt. Werden z. B. „30 Minuten“ eingestellt, wird jede Entität, deren Zeitstempel in den letzten 30 Minuten liegt, zum Ziel des Freigabeangebots, wenn dieser Prozessor ausgeführt wird. Eine aufgelistete Entität gilt als „neu/aktualisiert“ und wird als FlowFile ausgegeben, wenn eine der folgenden Bedingungen erfüllt ist: 1. existiert nicht in den bereits aufgelisteten Entitäten, 2. hat einen neueren Zeitstempel als die zwischengespeicherte Entität, 3. hat eine andere Größe als die zwischengespeicherte Entität. Wenn der Zeitstempel einer zwischengespeicherten Entität älter wird als das angegebene Zeitfenster, wird diese Entität aus den zwischengespeicherten, bereits aufgelisteten Entitäten entfernt. Wird von der „Entitäten verfolgen“-Strategie verwendet.

Listing Strategy

Legen Sie fest, wie neue/aktualisierte Entitäten ermittelt werden sollen. Weitere Informationen finden Sie in den Beschreibungen der einzelnen Strategien.

Maximum File Age

Das maximale Alter, das eine Datei haben darf, um abgerufen zu werden; alle Dateien, die älter sind als dieser Zeitraum (gemäß dem Datum der letzten Änderung), werden ignoriert.

Maximum File Size

Die maximale Größe, die eine Datei haben darf, um abgerufen zu werden

Minimum File Age

Das Mindestalter, das eine Datei haben muss, um abgerufen zu werden; alle Dateien, die jünger sind als dieser Zeitraum (gemäß dem Datum der letzten Änderung), werden ignoriert.

Minimum File Size

Die Mindestgröße, die eine Datei haben muss, um abgerufen zu werden

Record Writer

Gibt den Record Writer an, der zum Erstellen der Liste verwendet werden soll. Wenn nicht angegeben, wird für jede aufgelistete Entität ein FlowFile erstellt. Wenn der Record Writer angegeben ist, werden alle Entitäten in ein einziges FlowFile geschrieben, anstatt Attribute zu einzelnen FlowFiles hinzuzufügen.

Storage Credentials

Controller Service, der verwendet wird, um Anmeldeinformationen für Azure Blob Storage zu erhalten.

proxy-configuration-service

Gibt den Proxy-Konfigurations-Controller Service an für die Weiterleitung von Netzwerkanforderungen festl. Im Falle von SOCKS ist nicht garantiert, dass die ausgewählte SOCKS-Version vom Prozessor verwendet wird.

Statusmanagement

Bereiche

Beschreibung

CLUSTER

Nach dem Auflisten der Blobs wird der Zeitstempel des neuesten Blobs gespeichert, wenn die Auflistungsstrategie „Tracking Timestamps“ verwendet wird (Standard). Dadurch kann der Prozessor bei der nächsten Ausführung des Prozessors nur Blobs auflisten, die nach diesem Datum hinzugefügt oder geändert wurden. Der Status wird im gesamten Cluster gespeichert, sodass dieser Prozessor nur auf dem primären Knoten ausgeführt werden kann. Wenn ein neuer primärer Knoten ausgewählt wird, kann der neue Knoten dort weitermachen, wo der vorherige Knoten aufgehört hat, ohne die Daten zu duplizieren.

Beziehungen

Name

Beschreibung

success

Alle FlowFiles, die empfangen werden, werden an die Beziehung „success“ weitergeleitet.

Schreibt Attribute

Name

Beschreibung

azure.container

Der Name des Azure Blob Storage Container

azure.blobname

Der Name des Blobs auf Azure Blob Storage

azure.primaryUri

Primärer Speicherort des Blob

azure.etag

ETag des Blob

azure.blobtype

Typ des Blob (entweder BlockBlob, PageBlob oder AppendBlob)

mime.type

MIME-Typ des Inhalts

lang

Sprachcode für den Inhalt

azure.timestamp

Zeitstempel des Blob

azure.length

Länge des Blob

Siehe auch: