ListAzureDataLakeStorage 2025.10.2.19

Bundle

org.apache.nifi | nifi-azure-nar

Description

Liste le répertoire dans un système de fichiers Azure Data Lake Storage Gen 2

Balises

adlsgen2, azure, cloud, datalake, microsoft, storage

Exigences en matière d’entrées

FORBIDDEN

Prend en charge les propriétés dynamiques sensibles

false

Propriétés

Propriété

Description

ADLS Credentials

Controller Service utilisé pour obtenir les identifiants Azure.

Directory Name

Nom du répertoire de stockage Azure. Le nom du répertoire ne peut pas contenir de « / ». Le répertoire racine peut être désigné par la valeur de la chaîne vide. Dans le cas du processeur PutAzureDataLakeStorage, le répertoire sera créé s’il n’existe pas déjà.

File Filter

Seuls les fichiers dont le nom correspond à l’expression régulière donnée seront répertoriés

Filesystem Name

Nom du système de fichiers de stockage Azure (également appelé conteneur). Il est supposé être déjà existant.

Include Temporary Files

Indique s’il faut inclure les fichiers temporaires lors du listing du contenu des chemins de répertoire configurés.

Âge maximum du fichier

L’âge maximum d’un fichier pour qu’il puisse être extrait ; tout fichier plus ancien que cette durée (en fonction de la date de la dernière modification) sera ignoré

Taille maximale du fichier

Taille maximale d’un fichier pour qu’il puisse être extrait

Âge minimum du fichier

L’âge minimum qu’un fichier doit avoir pour être extrait ; tout fichier plus jeune que cette durée (en fonction de la date de la dernière modification) sera ignoré

Taille minimale du fichier

La taille minimale que doit avoir un fichier pour être extrait

Path Filter

Si l’option « Sous-répertoires récursifs » est vraie, seuls les sous-répertoires dont les chemins correspondent à l’expression régulière donnée seront analysés

Recurse Subdirectories

Indique s’il faut répertorier les fichiers des sous-répertoires du répertoire

et-initial-listing-target

Specify how initial listing should be handled. Used by “Tracking Entities’strategy.

et-state-cache

Listed entities are stored in the specified cache storage so that this processor can resume listing across NiFi restart or in case of primary node change. “Tracking Entities’strategy require tracking information of all listed entities within the last “Tracking Time Window”. To support large number of entities, the strategy uses DistributedMapCache instead of managed state. Cache key format is “ListedEntities::{processorId}(::{nodeId})”. If it tracks per node listed entities, then the optional “::{nodeId}” part is added to manage state separately. E.g. cluster wide cache key =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”, per node cache key =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3” The stored cache content is Gzipped JSON string. The cache key will be deleted when target listing configuration is changed. Used by “Tracking Entities’strategy.

et-time-window

Specify how long this processor should track already-listed entities. “Tracking Entities’strategy can pick any entity whose timestamp is inside the specified time window. For example, if set to “30 minutes”, any entity having timestamp in recent 30 minutes will be the listing target when this processor runs. A listed entity is considered “new/updated” and a FlowFile is emitted if one of following condition meets: 1. does not exist in the already-listed entities, 2. has newer timestamp than the cached entity, 3. has different size than the cached entity. If a cached entity “s timestamp becomes older than specified time window, that entity will be removed from the cached already-listed entities. Used by’Tracking Entities’strategy.

listing-strategy

Précisez comment déterminer les entités nouvelles/mises à jour. Voir les descriptions de chaque stratégie pour plus de détails.

service proxy-configuration

Spécifie le Controller Service de configuration proxy pour les requêtes réseau proxy. Dans le cas de SOCKS, il n’est pas garanti que la version SOCKS sélectionnée sera utilisée par le processeur.

record-writer

Spécifie le Record Writer à utiliser pour créer le listing. Si vous ne le précisez pas, un FlowFile sera créé pour chaque entité inscrite sur la liste. Si le Record Writer est spécifié, toutes les entités seront écrites sur un seul FlowFile au lieu d’ajouter des attributs à des FlowFiles individuels.

Gestion de l’État

Champs d’application

Description

CLUSTER

Après avoir effectué un listing de fichiers, l’horodatage du fichier le plus récent est enregistré. Cela permet au processeur de dresser uniquement la liste des fichiers qui ont été ajoutés ou modifiés après cette date lors de la prochaine exécution du processeur. L’état est stocké dans le clustering afin que ce processeur puisse être exécuté sur le nœud principal uniquement et que, si un nouveau nœud principal est sélectionné, le nouveau nœud puisse reprendre là où le précédent s’est arrêté, sans dupliquer les données.

Relations

Nom

Description

success

Tous les FlowFiles reçus sont routés vers le succès

Écrit les attributs

Nom

Description

azure.filesystem

Le nom du système de fichiers Azure

azure.filePath

Le chemin complet du fichier Azure

azure.directory

Le nom du répertoire Azure

azure.filename

Le nom du fichier Azure

azure.length

La longueur du fichier Azure

azure.lastModified

L’heure de la dernière modification du fichier Azure

azure.etag

Le ETag du fichier Azure

Voir aussi :