ListFTP 2025.10.2.19

Bundle

org.apache.nifi | nifi-standard-nar

Description

Effectue une liste des fichiers résidant sur un serveur FTP. Pour chaque fichier trouvé sur le serveur distant, un nouveau FlowFile est créé avec l’attribut de nom de fichier défini comme le fichier du serveur distant. Vous pouvez ensuite l’utiliser en conjonction avec FetchFTP pour récupérer ces fichiers.

Balises

files, ftp, ingest, input, list, remote, source

Exigences en matière d’entrées

FORBIDDEN

Prend en charge les propriétés dynamiques sensibles

false

Propriétés

Propriété

Description

Mode de connexion

Le mode de connexion FTP

Connection Timeout

Délai d’attente avant l’interruption de la création d’une connexion

Délai d’expiration des données

Lors du transfert d’un fichier entre le système local et le système distant, cette valeur indique le temps qui peut s’écouler sans qu’aucune donnée ne soit transférée entre les systèmes

Filtre de fichier Regex

Fournit une expression régulière Java pour filtrer les noms de fichiers ; si un filtre est fourni, seuls les fichiers dont les noms correspondent à cette expression régulière seront recherchés

Nom d’hôte

Le nom d’hôte entièrement qualifié ou l’adresse IP du système distant

Ignorer les fichiers en pointillés

Si true, les fichiers dont le nom commence par un point (« . ») seront ignorés

Taille de la mémoire tampon interne

Paramètre la taille de la mémoire tampon interne pour les flux de données mis en mémoire tampon

Mot de passe

Mot de passe du compte utilisateur

Regex de filtrage de chemin

Si la recherche récursive est true, seuls les sous-répertoires dont le chemin correspond à l’expression régulière donnée seront analysés

Port

Le port auquel il faut se connecter sur l’hôte distant pour récupérer les données

Chemin distant

Le chemin d’accès au système distant à partir duquel les fichiers doivent être extraits ou poussés

Taille du lot d’interrogation distante

La valeur spécifie le nombre de chemins d’accès aux fichiers à rechercher dans un répertoire donné sur le système distant lors du listage des fichiers. En général, cette valeur ne devrait pas avoir besoin d’être modifiée, mais lors de l’interrogation d’un système distant avec un nombre considérable de fichiers, cette valeur peut être critique. Si vous fixez cette valeur à un niveau trop élevé, les performances en seront affectées et si vous définissez une valeur trop faible, le flux sera plus lent que la normale.

Recherche récursive

Si true, les fichiers seront extraits de sous-répertoires arbitrairement imbriqués ; sinon, les fichiers ne seront pas extraits des sous-répertoires

Mode de transfert

Le mode de transfert FTP

NomUtilisateur

NomUtilisateur

et-initial-listing-target

Spécifiez comment l’annonce initiale doit être gérée. Utilisé par la stratégie « Suivi des entités ».

et-state-cache

Les entités répertoriées sont stockées dans le cache spécifié afin que le processeur puisse reprendre le listage après un redémarrage NiFi ou en cas de changement de nœud principal. La stratégie « Suivi des entités » nécessite le suivi des informations de toutes les entités répertoriées au cours de la dernière « fenêtre de suivi ». Pour prendre en charge un grand nombre d’entités, la stratégie utilise DistributedMapCache au lieu d’un état géré. Le format de la clé de cache est “ListedEntities::{processorId}(::{nodeId})”. Si elle suit les entités répertoriées par nœud, la partie facultative “::{nodeId}” est ajoutée pour gérer l’état séparément. Par exemple : clé de cache à l’échelle du cluster =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”, per node cache key =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3” Le contenu du cache stocké est une chaîne JSON au format Gzip. La clé de cache sera supprimée lorsque la configuration de la liste cible est modifiée. Utilisé par la stratégie « Suivi des entités ».

et-time-window

Indiquez pendant combien de temps ce processeur doit suivre les entités déjà répertoriées. La stratégie « Suivi des entités » peut sélectionner n’importe quelle entité dont l’horodatage se situe dans la fenêtre temporelle spécifiée. Par exemple, si le paramètre est réglé sur « 30 minutes », toute entité ayant un horodatage au cours des 30 dernières minutes sera la cible de la liste lorsque ce processeur s’exécutera. Une entité répertoriée est considérée comme « nouvelle/mise à jour » et un FlowFile est émis si l’une des conditions suivantes est remplie : 1. n’existe pas dans les entités déjà répertoriées, 2. a un horodatage plus récent que l’entité mise en cache, 3. a une taille différente de l’entité mise en cache. Si l’horodatage d’une entité mise en cache devient plus ancien que la fenêtre temporelle spécifiée, cette entité sera supprimée des entités déjà répertoriées en cache. Utilisé par la stratégie de « Suivi des entités ».

suivre le lien symbolique

Si true, les fichiers symboliques ainsi que les sous-répertoires symboliques imbriqués seront extraits ; sinon, les fichiers symboliques ne seront pas lus et les sous-répertoires à liens symboliques ne seront pas traversés

ftp-use-utf8

Indique au client d’utiliser le codage UTF-8 lors du traitement des fichiers et des noms de fichiers. S’il a la valeur true, le serveur doit également prendre en charge le codage UTF-8.

listing-strategy

Précisez comment déterminer les entités nouvelles/mises à jour. Voir les descriptions de chaque stratégie pour plus de détails.

service proxy-configuration

Spécifie le Controller Service de configuration proxy pour les requêtes réseau proxy.

record-writer

Spécifie le Record Writer à utiliser pour créer le listing. Si vous ne le précisez pas, un FlowFile sera créé pour chaque entité inscrite sur la liste. Si le Record Writer est spécifié, toutes les entités seront écrites sur un seul FlowFile au lieu d’ajouter des attributs à des FlowFiles individuels.

target-system-timestamp-precision

Spécifiez la précision de l’horodatage dans le système cible. Étant donné que ce processeur utilise l’horodatage des entités pour décider lesquelles doivent être répertoriées, il est crucial d’utiliser la bonne précision d’horodatage.

Gestion de l’État

Champs d’application

Description

CLUSTER

Après avoir effectué un listing de fichiers, l’horodatage du fichier le plus récent est enregistré. Cela permet au processeur de dresser uniquement la liste des fichiers qui ont été ajoutés ou modifiés après cette date lors de la prochaine exécution du processeur. L’état est stocké dans tout le cluster afin que ce processeur puisse être exécuté uniquement sur le nœud principal et que, si un nouveau nœud principal est sélectionné, le nouveau nœud ne duplique pas les données qui ont été répertoriées par le nœud principal précédent.

Relations

Nom

Description

success

Tous les FlowFiles reçus sont routés vers le succès

Écrit les attributs

Nom

Description

ftp.remote.host

Le nom d’hôte du serveur FTP

ftp.remote.port

Le port sur lequel la connexion a été établie sur le serveur FTP

ftp.liste.utilisateur

Le nom d’utilisateur de l’utilisateur qui a effectué le listing FTP

file.owner

L’identifiant numérique du propriétaire du fichier source

file.group

L’identifiant numérique du groupe du fichier source

file.permissions

Les autorisations de lecture/écriture/exécution du fichier source

file.size

Le nombre d’octets dans le fichier source

file.lastModifiedTime

Horodatage de la date de la dernière modification du fichier dans le système de fichiers sous la forme « aaaa-MM-jj’T’HH: mm:ssZ »

filename

Le nom du fichier sur le serveur FTP

path

Le nom complet du répertoire du serveur FTP à partir duquel le fichier a été extrait

Voir aussi :