ListAzureDataLakeStorage 2025.10.9.21¶

Bundle¶

org.apache.nifi | nifi-azure-nar

Description¶

Liste le répertoire dans un système de fichiers Azure Data Lake Storage Gen 2

Balises¶

adlsgen2, azure, cloud, datalake, microsoft, storage

Exigences en matière d’entrées¶

FORBIDDEN

Prend en charge les propriétés dynamiques sensibles¶

false

Propriétés¶

Propriété	Description
Identifiants de connexion ADLS	Controller Service utilisé pour obtenir les identifiants Azure.
Nom du répertoire	Nom du répertoire de stockage Azure. Le nom du répertoire ne peut pas contenir de « / ». Le répertoire racine peut être désigné par la valeur de la chaîne vide. Dans le cas du processeur PutAzureDataLakeStorage, le répertoire sera créé s’il n’existe pas déjà.
Cible de la liste initiale du suivi des entités	Spécifiez comment la liste initiale doit être gérée. Utilisé par la stratégie « Suivi des entités ».
Cache d’états de suivi des entités	Les entités répertoriées sont stockées dans le cache spécifié afin que le processeur puisse reprendre la liste après un redémarrage NiFi ou en cas de changement de nœud principal. La stratégie « Suivi des entités » nécessite le suivi des informations de toutes les entités répertoriées au cours de la dernière « fenêtre de suivi ». Pour prendre en charge un grand nombre d’entités, la stratégie utilise DistributedMapCache au lieu d’un état géré. Le format de la clé de cache est “ListedEntities::{processorId}(::{nodeId})”. Si elle suit les entités répertoriées par nœud, la partie facultative “::{nodeId}” est ajoutée pour gérer l’état séparément. Par exemple : clé de cache à l’échelle du cluster =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”, per node cache key =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3” Le contenu du cache stocké est une chaîne JSON au format Gzip. La clé de cache sera supprimée lorsque la configuration de la liste cible est modifiée. Utilisé par la stratégie « Suivi des entités ».
Fenêtre de temps du suivi des entités	Indiquez pendant combien de temps ce processeur doit suivre les entités déjà répertoriées. La stratégie « Suivi des entités » peut sélectionner n’importe quelle entité dont l’horodatage se situe dans la fenêtre temporelle spécifiée. Par exemple, si le paramètre est réglé sur « 30 minutes », toute entité ayant un horodatage au cours des 30 dernières minutes sera la cible de la liste lorsque ce processeur s’exécutera. Une entité répertoriée est considérée comme « nouvelle/mise à jour » et un FlowFile est émis si l’une des conditions suivantes est remplie : 1. n’existe pas dans les entités déjà répertoriées, 2. a un horodatage plus récent que l’entité mise en cache, 3. a une taille différente de l’entité mise en cache. Si l’horodatage d’une entité mise en cache devient plus ancien que la fenêtre temporelle spécifiée, cette entité sera supprimée des entités déjà répertoriées en cache. Utilisé par la stratégie de « Suivi des entités ».
Filtre de fichier	Seuls les fichiers dont le nom correspond à l’expression régulière donnée seront répertoriés
Nom du système de fichiers	Nom du système de fichiers de stockage Azure (également appelé conteneur). Il est supposé être déjà existant.
Inclure les fichiers temporaires	Indique s’il faut inclure les fichiers temporaires lors du listing du contenu des chemins de répertoire configurés.
Stratégie de listing	Précisez comment déterminer les entités nouvelles/mises à jour. Voir les descriptions de chaque stratégie pour plus de détails.
Âge maximum du fichier	L’âge maximum d’un fichier pour qu’il puisse être extrait ; tout fichier plus ancien que cette durée (en fonction de la date de la dernière modification) sera ignoré
Taille maximale du fichier	Taille maximale d’un fichier pour qu’il puisse être extrait
Âge minimum du fichier	L’âge minimum qu’un fichier doit avoir pour être extrait ; tout fichier plus jeune que cette durée (en fonction de la date de la dernière modification) sera ignoré
Taille minimale du fichier	La taille minimale que doit avoir un fichier pour être extrait
Filtre du chemin	Si l’option « Sous-répertoires récursifs » est vraie, seuls les sous-répertoires dont les chemins correspondent à l’expression régulière donnée seront analysés
Créateur d’enregistrement	Spécifie le Record Writer à utiliser pour créer le listing. Si vous ne le précisez pas, un FlowFile sera créé pour chaque entité inscrite sur la liste. Si le Record Writer est spécifié, toutes les entités seront écrites sur un seul FlowFile au lieu d’ajouter des attributs à des FlowFiles individuels.
Sous-répertoires récursifs	Indique s’il faut répertorier les fichiers des sous-répertoires du répertoire
service proxy-configuration	Spécifie le Controller Service de configuration proxy pour les requêtes réseau proxy. Dans le cas de SOCKS, il n’est pas garanti que la version SOCKS sélectionnée sera utilisée par le processeur.

Gestion de l’État¶

Champs d’application	Description
CLUSTER	Après avoir effectué un listing de fichiers, l’horodatage du fichier le plus récent est enregistré. Cela permet au processeur de dresser uniquement la liste des fichiers qui ont été ajoutés ou modifiés après cette date lors de la prochaine exécution du processeur. L’état est stocké dans le clustering afin que ce processeur puisse être exécuté sur le nœud principal uniquement et que, si un nouveau nœud principal est sélectionné, le nouveau nœud puisse reprendre là où le précédent s’est arrêté, sans dupliquer les données.

Champs d’application

Description

CLUSTER

Après avoir effectué un listing de fichiers, l’horodatage du fichier le plus récent est enregistré. Cela permet au processeur de dresser uniquement la liste des fichiers qui ont été ajoutés ou modifiés après cette date lors de la prochaine exécution du processeur. L’état est stocké dans le clustering afin que ce processeur puisse être exécuté sur le nœud principal uniquement et que, si un nouveau nœud principal est sélectionné, le nouveau nœud puisse reprendre là où le précédent s’est arrêté, sans dupliquer les données.

Relations¶

Nom	Description
success	Tous les FlowFiles reçus sont routés vers le succès

Écrit les attributs¶

Nom	Description
azure.filesystem	Le nom du système de fichiers Azure
azure.filePath	Le chemin complet du fichier Azure
azure.directory	Le nom du répertoire Azure
azure.filename	Le nom du fichier Azure
azure.length	La longueur du fichier Azure
azure.lastModified	L’heure de la dernière modification du fichier Azure
azure.etag	Le ETag du fichier Azure