ListS3 2025.10.2.19¶
Bundle¶
org.apache.nifi | nifi-aws-nar
Description¶
Récupère une liste d’objets à partir d’un compartiment S3. Pour chaque objet de la liste, créez un FlowFile qui représente l’objet de manière à ce qu’il puisse être recherché conjointement avec FetchS3Object. Ce processeur est conçu pour fonctionner uniquement sur le nœud principal d’un cluster. Si le nœud principal change, le nouveau nœud principal reprendra là où le précédent s’est arrêté sans dupliquer toutes les données.
Exigences en matière d’entrées¶
FORBIDDEN
Prend en charge les propriétés dynamiques sensibles¶
false
Propriétés¶
Propriété |
Description |
|---|---|
Service des fournisseurs d’identifiants de connexion AWS |
Le Controller Service qui est utilisé pour obtenir le fournisseur d’identifiants de connexion AWS |
Compartiment |
Le compartiment S3 avec lequel interagir |
Délai d’expiration de la communication |
Le temps d’attente pour établir une connexion avec AWS ou recevoir des données de AWS avant qu’un délai d’expiration ne se produise. |
Custom Signer Class Name |
Fully qualified class name of the custom signer class. The signer must implement com.amazonaws.auth. Signer interface. |
Custom Signer Module Location |
Liste séparée par des virgules des chemins d’accès aux fichiers et/ou aux répertoires contenant le fichier JAR du signataire personnalisé et ses dépendances (le cas échéant). |
Delimiter |
Chaîne utilisée pour délimiter les répertoires dans le compartiment. Veuillez consulter la documentation AWS pour l’utilisation correcte de ce champ. |
Endpoint Override URL |
URL du point de terminaison à utiliser à la place du point de terminaison AWS par défaut, y compris le schéma, l’hôte, le port et le chemin. Les bibliothèques AWS sélectionnent une URL de point de terminaison en fonction de la région AWS, mais cette propriété remplace l’URL de point de terminaison sélectionnée, ce qui permet une utilisation avec d’autres points de terminaison compatibles S3. |
List Type |
Indique s’il faut utiliser le point de terminaison Liste des objets original ou le point de terminaison Liste des objets Version 2, plus récent. |
Taille du listing par lot |
Si vous n’utilisez pas de Record Writer, cette propriété détermine le nombre d’objets S3 à répertorier dans un seul lot. Lorsque ce nombre est atteint, les FlowFiles qui ont été créés sont transférés hors du processeur. Une valeur inférieure peut réduire le temps de latence en envoyant les FlowFiles avant la fin du listing. Cependant, elle peut réduire considérablement les performances. Les valeurs plus élevées peuvent nécessiter plus de mémoire pour stocker toutes les informations avant d’envoyer les FlowFiles. Cette propriété est ignorée si vous utilisez un Record Writer, car l’un des principaux avantages du Record Writer est qu’il permet d’émettre l’intégralité du listing sous la forme d’un seul FlowFile. |
Listing Strategy |
Précisez comment déterminer les entités nouvelles/mises à jour. Voir les descriptions de chaque stratégie pour plus de détails. |
Âge maximal de l’objet |
Âge maximal que peut avoir un objet S3 pour être pris en compte ; tout objet plus ancien que ce délai (selon la date de dernière modification) sera ignoré |
Âge minimal de l’objet |
Âge minimum que doit avoir un objet S3 pour être pris en compte ; tout objet plus récent que de délai (selon la date de dernière modification) sera ignoré |
Prefix |
Le préfixe utilisé pour filtrer la liste des objets. Ne commencez pas par une barre oblique « / ». Dans la plupart des cas, il doit se terminer par une barre oblique « / ». |
Record Writer |
Spécifie le Record Writer à utiliser pour créer le listing. Si vous ne le précisez pas, un FlowFile sera créé pour chaque entité inscrite sur la liste. Si le Record Writer est spécifié, toutes les entités seront écrites sur un seul FlowFile au lieu d’ajouter des attributs à des FlowFiles individuels. |
Region |
La région AWS à laquelle se connecter. |
Requester Pays |
If true, indicates that the requester consents to pay any charges associated with listing the S3 bucket. This sets the “x-amz-request-payer” header to “requester”. Note that this setting is not applicable when “Use Versions” is “true”. |
Service contextuel SSL |
Spécifie un service contextuel SSL facultatif qui, s’il est fourni, sera utilisé pour créer des connexions |
Signer Override |
La bibliothèque d’AWS S3 utilise par défaut le protocole Signature Version 4, mais cette propriété vous permet de spécifier le signataire version 2 pour prendre en charge des services compatibles S3 plus anciens ou même pour ajouter votre propre implémentation de signataire personnalisée. |
Use Versions |
Specifies whether to use S3 versions, if applicable. If false, only the latest version of each object will be returned. |
Write Object Tags |
Si « true » est défini, les balises associées à l’objet S3 seront écrites en tant qu’attributs FlowFile |
Write User Metadata |
Si la valeur est “True”, les métadonnées définies par l’utilisateur et associées à l’objet S3 seront ajoutées aux attributs/enregistrements de FlowFile |
et-initial-listing-target |
Specify how initial listing should be handled. Used by “Tracking Entities’strategy. |
et-state-cache |
Listed entities are stored in the specified cache storage so that this processor can resume listing across NiFi restart or in case of primary node change. “Tracking Entities’strategy require tracking information of all listed entities within the last “Tracking Time Window”. To support large number of entities, the strategy uses DistributedMapCache instead of managed state. Cache key format is “ListedEntities::{processorId}(::{nodeId})”. If it tracks per node listed entities, then the optional “::{nodeId}” part is added to manage state separately. E.g. cluster wide cache key =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”, per node cache key =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3” The stored cache content is Gzipped JSON string. The cache key will be deleted when target listing configuration is changed. Used by “Tracking Entities’strategy. |
et-time-window |
Specify how long this processor should track already-listed entities. “Tracking Entities’strategy can pick any entity whose timestamp is inside the specified time window. For example, if set to “30 minutes”, any entity having timestamp in recent 30 minutes will be the listing target when this processor runs. A listed entity is considered “new/updated” and a FlowFile is emitted if one of following condition meets: 1. does not exist in the already-listed entities, 2. has newer timestamp than the cached entity, 3. has different size than the cached entity. If a cached entity “s timestamp becomes older than specified time window, that entity will be removed from the cached already-listed entities. Used by’Tracking Entities’strategy. |
service proxy-configuration |
Spécifie le Controller Service de configuration proxy pour les requêtes réseau proxy. |
Gestion de l’État¶
Champs d’application |
Description |
|---|---|
CLUSTER |
Après avoir établi le listing de clés, l’horodatage de la clé la plus récente est stocké, ainsi que les clés qui partagent le même horodatage. Cela permet au processeur de dresser uniquement la liste des clés qui ont été ajoutées ou modifiées après cette date lors de la prochaine exécution du processeur. L’état est stocké dans le clustering afin que ce processeur puisse être exécuté sur le nœud principal uniquement et que, si un nouveau nœud principal est sélectionné, le nouveau nœud puisse reprendre là où le précédent s’est arrêté, sans dupliquer les données. |
Relations¶
Nom |
Description |
|---|---|
success |
Les FlowFiles sont routés vers cette relation après avoir été traités correctement. |
Écrit les attributs¶
Nom |
Description |
|---|---|
s3.bucket |
Le nom du compartiment S3 |
s3.region |
La région du compartiment S3 |
filename |
Le nom du fichier |
s3.etag |
Le ETag qui peut être utilisé pour voir si le fichier a été modifié |
s3.isLatest |
Un booléen indiquant s’il s’agit de la dernière version de l’objet |
s3.lastModified |
La dernière heure de modification en millisecondes depuis l’époque, au format d’heure UTC |
s3.length |
La taille de l’objet en octets |
s3.storeClass |
La classe de stockage de l’objet |
s3.version |
La version de l’objet, le cas échéant |
s3.tag.___ |
Si l’option d’écriture des balises d’objets est réglée sur « True », les balises associées à l’objet S3 en cours de listing seront écrites dans les attributs du FlowFile |
s3.user.metadata.___ |
Si l’option d’écriture des métadonnées d’utilisateur est réglée sur « True », les métadonnées définies par l’utilisateur et associées à l’objet S3 en cours de listing seront écrites dans les attributs du FlowFile |