ListGoogleDrive 2025.10.2.19¶
Bundle¶
org.apache.nifi | nifi-gcp-nar
Description¶
Effectue une liste des fichiers concrets (les raccourcis sont ignorés) dans un dossier Google Drive. Si la propriété Record Writer est définie, un seul FlowFile de sortie est créé et chaque fichier du listing est écrit sous la forme d’un enregistrement unique dans le fichier de sortie. Sinon, pour chaque fichier du listing, un FlowFile est créé, les métadonnées étant écrites sous forme d’attributs FlowFile. Ce processeur est conçu pour fonctionner uniquement sur le nœud principal d’un cluster. Si le nœud principal change, le nouveau nœud principal reprendra là où le précédent s’est arrêté sans dupliquer toutes les données. Veuillez consulter la rubrique Détails supplémentaires pour configurer l’accès à Google Drive.
Exigences en matière d’entrées¶
FORBIDDEN
Prend en charge les propriétés dynamiques sensibles¶
false
Propriétés¶
Propriété |
Description |
|---|---|
connect-timeout |
Temps d’attente maximum pour la connexion au service Google Drive. |
et-initial-listing-target |
Spécifiez comment l’annonce initiale doit être gérée. Utilisé par la stratégie « Suivi des entités ». |
et-state-cache |
Les entités répertoriées sont stockées dans le cache spécifié afin que le processeur puisse reprendre la liste après un redémarrage NiFi ou en cas de changement de nœud principal. La stratégie « Suivi des entités » nécessite le suivi des informations de toutes les entités répertoriées au cours de la dernière « fenêtre de suivi ». Pour prendre en charge un grand nombre d’entités, la stratégie utilise DistributedMapCache au lieu d’un état géré. Le format de la clé de cache est “ListedEntities::{processorId}(::{nodeId})”. Si elle suit les entités répertoriées par nœud, la partie facultative “::{nodeId}” est ajoutée pour gérer l’état séparément. Par exemple : clé de cache à l’échelle du cluster =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”, per node cache key =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3” Le contenu du cache stocké est une chaîne JSON au format Gzip. La clé de cache sera supprimée lorsque la configuration de la liste cible est modifiée. Utilisé par la stratégie « Suivi des entités ». |
et-time-window |
Indiquez pendant combien de temps ce processeur doit suivre les entités déjà répertoriées. La stratégie « Suivi des entités » peut sélectionner n’importe quelle entité dont l’horodatage se situe dans la fenêtre temporelle spécifiée. Par exemple, si le paramètre est réglé sur « 30 minutes », toute entité ayant un horodatage au cours des 30 dernières minutes sera la cible de la liste lorsque ce processeur s’exécutera. Une entité répertoriée est considérée comme « nouvelle/mise à jour » et un FlowFile est émis si l’une des conditions suivantes est remplie : 1. n’existe pas dans les entités déjà répertoriées, 2. a un horodatage plus récent que l’entité mise en cache, 3. a une taille différente de l’entité mise en cache. Si l’horodatage d’une entité mise en cache devient plus ancien que la fenêtre temporelle spécifiée, cette entité sera supprimée des entités déjà répertoriées en cache. Utilisé par la stratégie de « Suivi des entités ». |
folder-id |
L’ID du dossier à partir duquel la liste des fichiers doit être extraite. Veuillez consulter la rubrique Détails supplémentaires pour configurer l’accès à Google Drive et obtenir un ID de dossier. WARNING: L’accès non autorisé au dossier est traité comme si le dossier était vide. Dans ce cas, le processeur ne crée pas de FlowFiles sortants. Aucun message d’erreur supplémentaire n’est fourni. |
gcp-credentials-provider-service |
Le Controller Service utilisé pour obtenir les identifiants Google Cloud Platform. |
listing-strategy |
Précisez comment déterminer les entités nouvelles/mises à jour. Voir les descriptions de chaque stratégie pour plus de détails. |
min-age |
L’ancienneté minimum que doit avoir un fichier pour être pris en compte ; tout fichier plus récent sera ignoré. |
service proxy-configuration |
Spécifie le Controller Service de configuration proxy pour les requêtes réseau proxy. |
read-timeout |
Temps d’attente maximum pour obtenir une réponse du service Google Drive. |
record-writer |
Spécifie le Record Writer à utiliser pour créer le listing. Si vous ne le précisez pas, un FlowFile sera créé pour chaque entité inscrite sur la liste. Si le Record Writer est spécifié, toutes les entités seront écrites sur un seul FlowFile au lieu d’ajouter des attributs à des FlowFiles individuels. |
recursive-search |
Si « true » est défini, la liste des fichiers de sous-dossiers concrets sera incluse (les raccourcis seront ignorés). Dans le cas contraire, seuls les fichiers dont l’ID de dossier est défini comme parent direct seront renvoyés. WARNING : Le listing peut échouer s’il y a trop de sous-dossiers (plus de 500). |
Gestion de l’État¶
Champs d’application |
Description |
|---|---|
CLUSTER |
Le processeur stocke les données nécessaires pour pouvoir suivre les fichiers qui ont déjà été répertoriés. Ce qui doit être stocké dépend de la « stratégie de listing ». L’état est stocké dans le clustering afin que ce processeur puisse être exécuté sur le nœud principal uniquement et que, si un nouveau nœud principal est sélectionné, le nouveau nœud puisse reprendre là où le précédent s’est arrêté, sans dupliquer les données. |
Relations¶
Nom |
Description |
|---|---|
success |
Tous les FlowFiles reçus sont routés vers le succès |
Écrit les attributs¶
Nom |
Description |
|---|---|
drive.id |
L’identifiant du fichier |
filename |
Le nom du fichier |
mime.type |
Le type MIME du fichier |
drive.size |
La taille du fichier. Le paramètre est fixé à 0 lorsque la taille du fichier n’est pas disponible (par exemple, fichiers stockés à l’extérieur). |
drive.size.available |
Indique si la taille du fichier est connue / disponible |
drive.timestamp |
L’heure de la dernière modification ou de la dernière création (la plus élevée des deux) du fichier. La raison en est que la date de modification initiale d’un fichier est préservée lorsqu’il est téléchargé sur Google Drive. L’heure de création correspond à l’heure à laquelle le téléchargement a lieu. Cependant, les fichiers téléchargés peuvent toujours être modifiés ultérieurement. |
drive.created.time |
Heure de création du fichier |
drive.modified.time |
Heure de la dernière modification du fichier |
drive.path |
Le chemin du répertoire du fichier à partir du répertoire de base. Le chemin contient les noms de dossiers encodés dans une URL , car Google Drive autorise les caractères spéciaux dans les noms de fichiers, notamment « / » (barre oblique) et « " (barre oblique inversée). Les noms de dossiers encodés dans l’URL sont séparés par des « / » dans le chemin. |
drive.owner |
Le propriétaire du fichier |
drive.last.modifying.user |
Le dernier utilisateur ayant modifié le fichier |
drive.web.view.link |
Lien de la vue web vers le fichier |
drive.web.content.link |
Lien de contenu web vers le fichier |
drive.parent.folder.id |
L’identifiant du dossier parent du fichier |
drive.parent.folder.name |
Le nom du dossier parent du fichier |
drive.listed.folder.id |
L’identifiant du dossier de base qui a été répertorié |
drive.listed.folder.name |
Le nom du dossier de base qui a été répertorié |
drive.shared.drive.id |
L’identifiant du lecteur partagé (si le fichier est situé sur un lecteur partagé) |
drive.shared.drive.name |
Le nom du lecteur partagé (si le fichier est situé sur un lecteur partagé) |