ListGCSBucket 2025.5.31.15¶
Bundle¶
org.apache.nifi | nifi-gcp-nar
Description¶
Récupère une liste d’objets dans un compartiment GCS. Pour chaque objet de la liste, créez un FlowFile qui représente l’objet de manière à ce qu’il puisse être recherché conjointement avec FetchGCSObject. Ce processeur est conçu pour fonctionner uniquement sur le nœud principal d’un cluster. Si le nœud principal change, le nouveau nœud principal reprendra là où le précédent s’est arrêté sans dupliquer toutes les données.
Exigences en matière d’entrées¶
FORBIDDEN
Prend en charge les propriétés dynamiques sensibles¶
false
Propriétés¶
Propriété |
Description |
---|---|
Service des fournisseurs d’identifiants de connexion GCP |
Le Controller Service utilisé pour obtenir les identifiants Google Cloud Platform. |
et-initial-listing-target |
Indiquez comment le listing initial doit être traité. Utilisé par la stratégie « Entités de suivi ». |
et-state-cache |
Les entités répertoriées sont stockées dans le stockage en cache spécifié afin que ce processeur puisse reprendre le listing lors du redémarrage de NiFi ou en cas de changement de nœud principal. la stratégie « Entités de suivi » requiert les informations de suivi de toutes les entités de la liste au cours de la dernière « fenêtre de suivi ». Pour prendre en charge un grand nombre d’entités, la stratégie utilise DistributedMapCache au lieu de l’état géré. Le format de la clé de cache est “ListedEntities::{processorId}(::{nodeId})”. S’il s’agit d’entités répertoriées par nœud, la partie facultative « ::{nodeId} » est ajoutée pour gérer l’état séparément. Par exemple, clé de cache à l’échelle du clustering = “ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”, clé de cache par nœud = “ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3” Le contenu de cache stocké est une chaîne JSON compressée avec Gzip. La clé de cache sera supprimée lorsque la configuration du listing cible sera modifiée. Utilisé par la stratégie « Entités de suivi ». |
et-time-window |
Indiquez pendant combien de temps ce processeur doit suivre les entités déjà inscrites sur la liste. La stratégie « Suivi des entités » permet de sélectionner toute entité dont l’horodatage se situe à l’intérieur de la fenêtre temporelle spécifiée. Par exemple, si le paramètre est fixé à « 30 minutes », toute entité dont l’horodatage se situe dans les 30 dernières minutes sera la cible du listing lors de l’exécution de ce processeur. Une entité de la liste est considérée comme « nouvelle/mise à jour » et un FlowFile est émis si l’une des conditions suivantes est remplie : 1. n’existe pas dans les entités déjà répertoriées, 2. a un horodatage plus récent que celui de l’entité mise en cache, 3. a une taille différente de celle de l’entité mise en cache. Si l’horodatage d’une entité mise en cache devient plus ancien que la fenêtre temporelle spécifiée, cette entité sera retirée de la liste des entités déjà mises en cache. Utilisé par la stratégie « Entités de suivi ». |
gcp-project-id |
ID du projet Google Cloud |
gcp-retry-count |
Nombre de nouvelles tentatives à effectuer avant le routage vers la relation d’échec. |
gcs-bucket |
Compartiment de l’objet. |
gcs-prefix |
Le préfixe utilisé pour filtrer la liste des objets. Dans la plupart des cas, il doit se terminer par une barre oblique (« / »). |
gcs-use-generations |
Indique s’il faut utiliser les générations de GCS, le cas échéant. Si « false » est défini, seule la dernière version de chaque objet sera renvoyée. |
listing-strategy |
Précisez comment déterminer les entités nouvelles/mises à jour. Voir les descriptions de chaque stratégie pour plus de détails. |
service proxy-configuration |
Spécifie le Controller Service de configuration proxy pour les requêtes réseau proxy. |
record-writer |
Spécifie le Record Writer à utiliser pour créer le listing. Si vous ne le précisez pas, un FlowFile sera créé pour chaque entité inscrite sur la liste. Si le Record Writer est spécifié, toutes les entités seront écrites sur un seul FlowFile au lieu d’ajouter des attributs à des FlowFiles individuels. |
storage-api-url |
Remplace l’URL de stockage par défaut. La configuration d’une URL d’API Storage alternative permet également de remplacer l’en-tête Hôte HTTP dans les requêtes, comme indiqué dans la documentation Google sur les connexions aux services privés. |
Gestion de l’État¶
Champs d’application |
Description |
---|---|
CLUSTER |
Après avoir établi le listing de clés, l’horodatage de la clé la plus récente est stocké, ainsi que les clés qui partagent le même horodatage. Cela permet au processeur de dresser uniquement la liste des clés qui ont été ajoutées ou modifiées après cette date lors de la prochaine exécution du processeur. L’état est stocké dans le clustering afin que ce processeur puisse être exécuté sur le nœud principal uniquement et que, si un nouveau nœud principal est sélectionné, le nouveau nœud puisse reprendre là où le précédent s’est arrêté, sans dupliquer les données. |
Relations¶
Nom |
Description |
---|---|
success |
Les FlowFiles sont routés vers cette relation en cas de réussite de l’opération Google Cloud Storage. |
Écrit les attributs¶
Nom |
Description |
---|---|
filename |
Le nom du fichier |
gcs.bucket |
Compartiment de l’objet. |
gcs.key |
Nom de l’objet. |
gcs.size |
Taille de l’objet. |
gcs.cache.control |
Contrôle du cache des données de l’objet. |
gcs.component.count |
Le nombre de composants qui constituent l’objet. |
gcs.content.disposition |
La disposition du contenu des données de l’objet. |
gcs.content.encoding |
Le codage du contenu de l’objet. |
gcs.content.language |
La langue de contenu de l’objet. |
mime.type |
Le MIME/Content-Type de l’objet. |
gcs.crc32c |
La somme de contrôle CRC32C des données de l’objet, encodée en base64 dans l’ordre big-endian. |
gcs.create.time |
Heure de création de l’objet (millisecondes). |
gcs.update.time |
Heure de la dernière modification de l’objet (en millisecondes). |
gcs.encryption.algorithm |
L’algorithme utilisé pour chiffrer l’objet. |
gcs.encryption.sha256 |
Le hachage SHA256 de la clé utilisée pour chiffrer l’objet. |
gcs.etag |
La balise entité HTTP 1.1 de l’objet. |
gcs.generated.id |
Le service généré pour l’objet. |
gcs.generation |
La génération de données de l’objet. |
gcs.md5 |
Le hachage MD5 des données de l’objet encodées en base64. |
gcs.media.link |
Le lien de téléchargement des médias vers l’objet. |
gcs.metageneration |
La métagénération de l’objet. |
gcs.owner |
Le propriétaire (téléchargeur) de l’objet. |
gcs.owner.type |
Le type d’entité ACL du téléverseur de l’objet. |
gcs.acl.owner |
Liste délimitée par des virgules des entités ACL qui ont un accès de propriétaire à l’objet. Les entités seront soit des adresses électroniques, soit des domaines, soit des projets IDs. |
gcs.acl.writer |
Liste délimitée par des virgules des entités ACL qui ont un accès en écriture à l’objet. Les entités seront soit des adresses électroniques, soit des domaines, soit des projets IDs. |
gcs.acl.reader |
Liste délimitée par des virgules des entités ACL qui ont un accès en lecture à l’objet. Les entités seront soit des adresses électroniques, soit des domaines, soit des projets IDs. |
gcs.uri |
L’URI de l’objet sous forme de chaîne. |