ListAzureDataLakeStorage 2025.5.31.15¶
Bundle¶
org.apache.nifi | nifi-azure-nar
Description¶
Liste le répertoire dans un système de fichiers Azure Data Lake Storage Gen 2
Exigences en matière d’entrées¶
FORBIDDEN
Prend en charge les propriétés dynamiques sensibles¶
false
Propriétés¶
Propriété |
Description |
---|---|
Âge maximum du fichier |
L’âge maximum d’un fichier pour qu’il puisse être extrait ; tout fichier plus ancien que cette durée (en fonction de la date de la dernière modification) sera ignoré |
Taille maximale du fichier |
Taille maximale d’un fichier pour qu’il puisse être extrait |
Âge minimum du fichier |
L’âge minimum qu’un fichier doit avoir pour être extrait ; tout fichier plus jeune que cette durée (en fonction de la date de la dernière modification) sera ignoré |
Taille minimale du fichier |
La taille minimale que doit avoir un fichier pour être extrait |
adls-credentials-service |
Controller Service utilisé pour obtenir les identifiants Azure. |
directory-name |
Nom du répertoire de stockage Azure. Le nom du répertoire ne peut pas contenir de « / ». Le répertoire racine peut être désigné par la valeur de la chaîne vide. Dans le cas du processeur PutAzureDataLakeStorage, le répertoire sera créé s’il n’existe pas déjà. |
et-initial-listing-target |
Indiquez comment le listing initial doit être traité. Utilisé par la stratégie « Entités de suivi ». |
et-state-cache |
Les entités répertoriées sont stockées dans le stockage en cache spécifié afin que ce processeur puisse reprendre le listing lors du redémarrage de NiFi ou en cas de changement de nœud principal. la stratégie « Entités de suivi » requiert les informations de suivi de toutes les entités de la liste au cours de la dernière « fenêtre de suivi ». Pour prendre en charge un grand nombre d’entités, la stratégie utilise DistributedMapCache au lieu de l’état géré. Le format de la clé de cache est “ListedEntities::{processorId}(::{nodeId})”. S’il s’agit d’entités répertoriées par nœud, la partie facultative « ::{nodeId} » est ajoutée pour gérer l’état séparément. Par exemple, clé de cache à l’échelle du clustering = “ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”, clé de cache par nœud = “ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3” Le contenu de cache stocké est une chaîne JSON compressée avec Gzip. La clé de cache sera supprimée lorsque la configuration du listing cible sera modifiée. Utilisé par la stratégie « Entités de suivi ». |
et-time-window |
Indiquez pendant combien de temps ce processeur doit suivre les entités déjà inscrites sur la liste. La stratégie « Suivi des entités » permet de sélectionner toute entité dont l’horodatage se situe à l’intérieur de la fenêtre temporelle spécifiée. Par exemple, si le paramètre est fixé à « 30 minutes », toute entité dont l’horodatage se situe dans les 30 dernières minutes sera la cible du listing lors de l’exécution de ce processeur. Une entité de la liste est considérée comme « nouvelle/mise à jour » et un FlowFile est émis si l’une des conditions suivantes est remplie : 1. n’existe pas dans les entités déjà répertoriées, 2. a un horodatage plus récent que celui de l’entité mise en cache, 3. a une taille différente de celle de l’entité mise en cache. Si l’horodatage d’une entité mise en cache devient plus ancien que la fenêtre temporelle spécifiée, cette entité sera retirée de la liste des entités déjà mises en cache. Utilisé par la stratégie « Entités de suivi ». |
file-filter |
Seuls les fichiers dont le nom correspond à l’expression régulière donnée seront répertoriés |
filesystem-name |
Nom du système de fichiers de stockage Azure (également appelé conteneur). Il est supposé être déjà existant. |
include-temporary-files |
Indique s’il faut inclure les fichiers temporaires lors du listing du contenu des chemins de répertoire configurés. |
listing-strategy |
Précisez comment déterminer les entités nouvelles/mises à jour. Voir les descriptions de chaque stratégie pour plus de détails. |
path-filter |
Si l’option « Sous-répertoires récursifs » est vraie, seuls les sous-répertoires dont les chemins correspondent à l’expression régulière donnée seront analysés |
service proxy-configuration |
Spécifie le Controller Service de configuration proxy pour les requêtes réseau proxy. Dans le cas de SOCKS, il n’est pas garanti que la version SOCKS sélectionnée sera utilisée par le processeur. |
record-writer |
Spécifie le Record Writer à utiliser pour créer le listing. Si vous ne le précisez pas, un FlowFile sera créé pour chaque entité inscrite sur la liste. Si le Record Writer est spécifié, toutes les entités seront écrites sur un seul FlowFile au lieu d’ajouter des attributs à des FlowFiles individuels. |
recurse-subdirectories |
Indique s’il faut répertorier les fichiers des sous-répertoires du répertoire |
Gestion de l’État¶
Champs d’application |
Description |
---|---|
CLUSTER |
Après avoir effectué un listing de fichiers, l’horodatage du fichier le plus récent est enregistré. Cela permet au processeur de dresser uniquement la liste des fichiers qui ont été ajoutés ou modifiés après cette date lors de la prochaine exécution du processeur. L’état est stocké dans le clustering afin que ce processeur puisse être exécuté sur le nœud principal uniquement et que, si un nouveau nœud principal est sélectionné, le nouveau nœud puisse reprendre là où le précédent s’est arrêté, sans dupliquer les données. |
Relations¶
Nom |
Description |
---|---|
success |
Tous les FlowFiles reçus sont routés vers le succès |
Écrit les attributs¶
Nom |
Description |
---|---|
azure.filesystem |
Le nom du système de fichiers Azure |
azure.filePath |
Le chemin complet du fichier Azure |
azure.directory |
Le nom du répertoire Azure |
azure.filename |
Le nom du fichier Azure |
azure.length |
La longueur du fichier Azure |
azure.lastModified |
L’heure de la dernière modification du fichier Azure |
azure.etag |
Le ETag du fichier Azure |