ListGoogleDrive 2025.10.2.19¶
Bundle¶
org.apache.nifi | nifi-gcp-nar
Beschreibung¶
Listet konkrete Dateien (Verknüpfungen werden ignoriert) in einem Google Drive-Ordner auf. Wenn die Eigenschaft „Record Writer“ eingestellt ist, wird ein einzelnes Ausgabe-FlowFile erstellt und jede Datei in der List wird als ein einzelner Datensatz in die Ausgabedatei geschrieben. Andernfalls wird für jede Datei in der Liste ein individuelles FlowFile erstellt, wobei die Metadaten als FlowFile-Attribute geschrieben werden. Dieser Prozessor ist für den Betrieb auf dem primären Knoten in einem Cluster vorgesehen. Wenn sich der primäre Knoten ändert, macht der neue primäre Knoten dort weiter, wo der vorherige Knoten aufgehört hat, ohne alle Daten zu duplizieren. Um den Zugriff auf Google Drive einzurichten, sehen Sie bitte unter „Weitere Details“ nach.
Eingabeanforderung¶
FORBIDDEN
Unterstützt sensible dynamische Eigenschaften¶
false
Eigenschaften¶
Eigenschaft |
Beschreibung |
|---|---|
connect-timeout |
Maximale Wartezeit für die Verbindung mit dem Google Drive-Dienst. |
et-initial-listing-target |
Geben Sie an, wie das erstmalige Freigabeangebot behandelt werden soll. Wird von der „Entitäten verfolgen“-Strategie verwendet. |
et-state-cache |
Die aufgelisteten Entitäten werden im angegebenen Cachespeicher gespeichert, sodass dieser Prozessor das Freigabeangebot über den NiFi-Neustart hinweg oder im Falle einer Änderung des Primärknotens fortsetzen kann. Die Strategie „Entitäten verfolgen“ erfordert Verfolgungsinformationen zu allen aufgelisteten Entitäten innerhalb des letzten Zeitfensters zur Verfolgung. Um eine große Anzahl von Entitäten zu unterstützen, verwendet die Strategie DistributedMapCache anstelle von verwaltetem Status. Das Format des Cacheschlüssels ist ‚ListedEntities::{processorId}(::{nodeId})‘. Wenn die aufgelisteten Entitäten pro Knoten verfolgt werden, wird der optionale Teil ‚::{nodeId}‘ hinzugefügt, um den Status separat zu verwalten. Beispiel: Clusterweiter Cache-Schlüssel =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b‘, pro Knoten-Cacheschlüssel =‘ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3‘ Der Inhalt des gespeicherten Cache ist eine Gzipped JSON-Zeichenfolge. Der Cacheschlüssel wird gelöscht, wenn die Konfiguration des Ziel-Freigabeangebots geändert wird. Wird von der „Entitäten verfolgen“-Strategie verwendet. |
et-time-window |
Geben Sie an, wie lange dieser Prozessor bereits aufgelistete Entitäten verfolgen soll. Die Strategie „Entitäten verfolgen“ kann jede Entität auswählen, deren Zeitstempel innerhalb des angegebenen Zeitfensters liegt. Werden z. B. „30 Minuten“ eingestellt, wird jede Entität, deren Zeitstempel in den letzten 30 Minuten liegt, zum Ziel des Freigabeangebots, wenn dieser Prozessor ausgeführt wird. Eine aufgelistete Entität gilt als „neu/aktualisiert“ und wird als FlowFile ausgegeben, wenn eine der folgenden Bedingungen erfüllt ist: 1. existiert nicht in den bereits aufgelisteten Entitäten, 2. hat einen neueren Zeitstempel als die zwischengespeicherte Entität, 3. hat eine andere Größe als die zwischengespeicherte Entität. Wenn der Zeitstempel einer zwischengespeicherten Entität älter wird als das angegebene Zeitfenster, wird diese Entität aus den zwischengespeicherten, bereits aufgelisteten Entitäten entfernt. Wird von der „Entitäten verfolgen“-Strategie verwendet. |
folder-id |
Die ID des Ordners, aus dem die Liste der Dateien abgerufen werden soll. Bitte sehen Sie unter „Weitere Details“ nach, um den Zugriff auf Google Drive einzurichten und die Ordner-ID zu erhalten. WARNING: Unerlaubter Zugriff auf den Ordner wird so behandelt, als ob der Ordner leer wäre. Dies führt dazu, dass der Prozessor keine ausgehenden FlowFiles erstellt. Es wird keine zusätzliche Fehlermeldung angezeigt. |
gcp-credentials-provider-service |
Der Controller Service, der verwendet wird, um Anmeldeinformationen für Google Cloud Platform zu erhalten. |
listing-strategy |
Legen Sie fest, wie neue/aktualisierte Entitäten ermittelt werden sollen. Weitere Informationen finden Sie in den Beschreibungen der einzelnen Strategien. |
min-age |
Das Mindestalter, das eine Datei haben muss, um berücksichtigt zu werden. Alle Dateien, die jünger sind als dieser Wert, werden ignoriert. |
proxy-configuration-service |
Gibt den Proxy-Konfigurations-Controller Service an für die Weiterleitung von Netzwerkanforderungen festl. |
read-timeout |
Maximale Wartezeit auf eine Antwort vom Google Drive-Dienst. |
record-writer |
Gibt den Record Writer an, der zum Erstellen der Liste verwendet werden soll. Wenn nicht angegeben, wird für jede aufgelistete Entität ein FlowFile erstellt. Wenn der Record Writer angegeben ist, werden alle Entitäten in ein einziges FlowFile geschrieben, anstatt Attribute zu einzelnen FlowFiles hinzuzufügen. |
recursive-search |
Bie „true“ wird die Liste der Dateien aus konkreten Unterordnern einbezogen (Verknüpfungen werden ignoriert). Andernfalls werden nur Dateien zurückgegeben, die die definierte „Folder ID“ direkt als übergeordnete Datei haben. WARNING: Die Auflistung kann fehlschlagen, wenn zu viele Unterordner vorhanden sind (500+). |
Statusmanagement¶
Bereiche |
Beschreibung |
|---|---|
CLUSTER |
Der Prozessor speichert die notwendigen Daten, um zu verfolgen, welche Dateien bereits aufgelistet wurden. Was genau gespeichert werden muss, hängt von der „Listing Strategy“ ab. Der Status wird im gesamten Cluster gespeichert, sodass dieser Prozessor nur auf dem primären Knoten ausgeführt werden kann. Wenn ein neuer primärer Knoten ausgewählt wird, kann der neue Knoten dort weitermachen, wo der vorherige Knoten aufgehört hat, ohne die Daten zu duplizieren. |
Beziehungen¶
Name |
Beschreibung |
|---|---|
success |
Alle FlowFiles, die empfangen werden, werden an die Beziehung „success“ weitergeleitet. |
Schreibt Attribute¶
Name |
Beschreibung |
|---|---|
drive.id |
Die ID der Datei |
filename |
Der Name der Datei |
mime.type |
Der MIME-Typ der Datei |
drive.size |
Die Größe der Datei. Auf 0 gesetzt, wenn die Dateigröße nicht verfügbar ist (z. B. bei extern gespeicherten Dateien). |
drive.size.available |
Zeigt an, ob die Dateigröße bekannt/verfügbar ist |
drive.timestamp |
Der Zeitpunkt der letzten Änderung oder der Erstellungszeit (je nachdem, was größer ist) der Datei. Der Grund dafür ist, dass das ursprüngliche Änderungsdatum einer Datei erhalten bleibt, wenn sie in Google Drive hochgeladen wird. Die „Created time“ ist der Zeitpunkt, an dem der Upload erfolgt. Hochgeladene Dateien können jedoch auch später noch geändert werden. |
drive.created.time |
Die Erstellungszeit der Datei |
drive.modified.time |
Die Zeit der letzten Änderung der Datei |
drive.path |
Der Pfad des Verzeichnisses der Datei vom Basisverzeichnis aus. Der Pfad enthält die Ordnernamen in URL-codierter Form, da Google Drive Sonderzeichen in Dateinamen zulässt, darunter „/“ (Schrägstrich) und „“ (Backslash). Die URL-codierten Ordnernamen werden im Pfad durch „/“ getrennt. |
drive.owner |
Der Eigentümer der Datei |
drive.last.modifying.user |
Der zuletzt ändernde Benutzer der Datei |
drive.web.view.link |
Link zur Webansicht der Datei |
drive.web.content.link |
Link zum Webinhalt der Datei |
drive.parent.folder.id |
Die ID des übergeordneten Ordners der Datei |
drive.parent.folder.name |
Der Name des übergeordneten Ordners der Datei |
drive.listed.folder.id |
Die ID des aufgelisteten Basisordners |
drive.listed.folder.name |
Der Name des Basisordners, der aufgelistet wurde |
drive.shared.drive.id |
Die ID des freigegebenen Laufwerks (wenn sich die Datei auf einem freigegebenen Laufwerk befindet) |
drive.shared.drive.name |
Der Name des freigegebenen Laufwerks (wenn sich die Datei auf einem freigegebenen Laufwerk befindet) |