ListGoogleDrive 2025.5.31.15¶
Bundle¶
org.apache.nifi | nifi-gcp-nar
Beschreibung¶
Listet konkrete Dateien (Verknüpfungen werden ignoriert) in einem Google Drive-Ordner auf. Wenn die Eigenschaft „Record Writer“ eingestellt ist, wird ein einzelnes Ausgabe-FlowFile erstellt und jede Datei in der List wird als ein einzelner Datensatz in die Ausgabedatei geschrieben. Andernfalls wird für jede Datei in der Liste ein individuelles FlowFile erstellt, wobei die Metadaten als FlowFile-Attribute geschrieben werden. Dieser Prozessor ist für den Betrieb auf dem primären Knoten in einem Cluster vorgesehen. Wenn sich der primäre Knoten ändert, macht der neue primäre Knoten dort weiter, wo der vorherige Knoten aufgehört hat, ohne alle Daten zu duplizieren. Um den Zugriff auf Google Drive einzurichten, sehen Sie bitte unter „Weitere Details“ nach.
Eingabeanforderung¶
FORBIDDEN
Unterstützt sensible dynamische Eigenschaften¶
false
Eigenschaften¶
Eigenschaft |
Beschreibung |
---|---|
connect-timeout |
Maximale Wartezeit für die Verbindung mit dem Google Drive-Dienst. |
et-initial-listing-target |
Legen Sie fest, wie das erste Freigabeangebot behandelt werden soll. Wird von der Strategie „Tracking Entities“ verwendet. |
et-state-cache |
Freigegebene Entitäten werden im angegebenen Cache-Speicher gespeichert, sodass dieser Prozessor die Freigabe bei einem Neustart von NiFi oder bei einem Wechsel des primären Knotens wieder aufnehmen kann. „Tracking Entities“-Strategie erfordert Tracking-Informationen von allen aufgelisteten Entitäten innerhalb des letzten „Tracking Time Window“. Um eine große Anzahl von Entitäten zu unterstützen, verwendet die Strategie DistributedMapCache anstelle eines verwalteten Zustands. Das Format des Cache-Schlüssels ist „ListedEntities: :{processorId}(::{nodeId})“. Wenn es pro Knoten aufgelistete Entitäten verfolgt, dann wird der optionale Teil „::{nodeId}“ hinzugefügt, um den Status separat zu verwalten. Beispiel: Clusterweiter Cache-Schlüssel = „ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b“, Cache-Schlüssel pro Knoten = „ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3“ Der gespeicherte Cache-Inhalt ist eine Gzipped JSON-Zeichenkette. Der Cache-Schlüssel wird gelöscht, wenn die Konfiguration der Zielliste geändert wird. Wird von der Strategie „Tracking Entities“ verwendet. |
et-time-window |
Geben Sie an, wie lange dieser Prozessor bereits gelistete Entitäten verfolgen soll. Die Strategie „Tracking Entities“ kann jede Entität auswählen, deren Zeitstempel innerhalb des angegebenen Zeitfensters liegt. Wenn Sie z. B. „30 Minuten“ einstellen, wird jede Entität, deren Zeitstempel in den letzten 30 Minuten liegt, das Ziel des Freigabeangebots sein, wenn dieser Prozessor läuft. Ein gelistete Entität gilt als „neu/aktualisiert“ und ein FlowFile wird ausgegeben, wenn eine der folgenden Bedingungen erfüllt ist: 1. Sie ist nicht in den bereits gelisteten Entitäten vorhanden, 2. Sie hat einen neueren Zeitstempel als die zwischengespeicherte Entität, 3. Sie hat eine andere Größe als die zwischengespeicherte Entität. Wenn der Zeitstempel einer zwischengespeicherten Entität älter ist als das angegebene Zeitfenster, wird diese Entität aus den zwischengespeicherten, bereits gelisteten Entitäten entfernt. Wird von der Strategie „Tracking Entities“ verwendet. |
folder-id |
Die ID des Ordners, aus dem die Liste der Dateien abgerufen werden soll. Bitte sehen Sie unter „Weitere Details“ nach, um den Zugriff auf Google Drive einzurichten und die Ordner-ID zu erhalten. WARNING: Unerlaubter Zugriff auf den Ordner wird so behandelt, als ob der Ordner leer wäre. Dies führt dazu, dass der Prozessor keine ausgehenden FlowFiles erstellt. Es wird keine zusätzliche Fehlermeldung angezeigt. |
gcp-credentials-provider-service |
Der Controller Service, der verwendet wird, um Anmeldeinformationen für Google Cloud Platform zu erhalten. |
listing-strategy |
Legen Sie fest, wie neue/aktualisierte Entitäten ermittelt werden sollen. Weitere Informationen finden Sie in den Beschreibungen der einzelnen Strategien. |
min-age |
Das Mindestalter, das eine Datei haben muss, um berücksichtigt zu werden. Alle Dateien, die jünger sind als dieser Wert, werden ignoriert. |
proxy-configuration-service |
Gibt den Proxy-Konfigurations-Controller Service an für die Weiterleitung von Netzwerkanforderungen festl. |
read-timeout |
Maximale Wartezeit auf eine Antwort vom Google Drive-Dienst. |
record-writer |
Gibt den Record Writer an, der zum Erstellen der Liste verwendet werden soll. Wenn nicht angegeben, wird für jede aufgelistete Entität ein FlowFile erstellt. Wenn der Record Writer angegeben ist, werden alle Entitäten in ein einziges FlowFile geschrieben, anstatt Attribute zu einzelnen FlowFiles hinzuzufügen. |
recursive-search |
Bie „true“ wird die Liste der Dateien aus konkreten Unterordnern einbezogen (Verknüpfungen werden ignoriert). Andernfalls werden nur Dateien zurückgegeben, die die definierte „Folder ID“ direkt als übergeordnete Datei haben. WARNING: Die Auflistung kann fehlschlagen, wenn zu viele Unterordner vorhanden sind (500+). |
Statusmanagement¶
Bereiche |
Beschreibung |
---|---|
CLUSTER |
Der Prozessor speichert die notwendigen Daten, um zu verfolgen, welche Dateien bereits aufgelistet wurden. Was genau gespeichert werden muss, hängt von der „Listing Strategy“ ab. Der Status wird im gesamten Cluster gespeichert, sodass dieser Prozessor nur auf dem primären Knoten ausgeführt werden kann. Wenn ein neuer primärer Knoten ausgewählt wird, kann der neue Knoten dort weitermachen, wo der vorherige Knoten aufgehört hat, ohne die Daten zu duplizieren. |
Beziehungen¶
Name |
Beschreibung |
---|---|
success |
Alle FlowFiles, die empfangen werden, werden an die Beziehung „success“ weitergeleitet. |
Schreibt Attribute¶
Name |
Beschreibung |
---|---|
drive.id |
Die ID der Datei |
filename |
Der Name der Datei |
mime.type |
Der MIME-Typ der Datei |
drive.size |
Die Größe der Datei. Auf 0 gesetzt, wenn die Dateigröße nicht verfügbar ist (z. B. bei extern gespeicherten Dateien). |
drive.size.available |
Zeigt an, ob die Dateigröße bekannt/verfügbar ist |
drive.timestamp |
Der Zeitpunkt der letzten Änderung oder der Erstellungszeit (je nachdem, was größer ist) der Datei. Der Grund dafür ist, dass das ursprüngliche Änderungsdatum einer Datei erhalten bleibt, wenn sie in Google Drive hochgeladen wird. Die „Created time“ ist der Zeitpunkt, an dem der Upload erfolgt. Hochgeladene Dateien können jedoch auch später noch geändert werden. |
drive.created.time |
Die Erstellungszeit der Datei |
drive.modified.time |
Die Zeit der letzten Änderung der Datei |
drive.path |
Der Pfad des Verzeichnisses der Datei vom Basisverzeichnis aus. Der Pfad enthält die Ordnernamen in URL-codierter Form, da Google Drive Sonderzeichen in Dateinamen zulässt, darunter „/“ (Schrägstrich) und „“ (Backslash). Die URL-codierten Ordnernamen werden im Pfad durch „/“ getrennt. |
drive.owner |
Der Eigentümer der Datei |
drive.last.modifying.user |
Der zuletzt ändernde Benutzer der Datei |
drive.web.view.link |
Link zur Webansicht der Datei |
drive.web.content.link |
Link zum Webinhalt der Datei |
drive.parent.folder.id |
Die ID des übergeordneten Ordners der Datei |
drive.parent.folder.name |
Der Name des übergeordneten Ordners der Datei |
drive.listed.folder.id |
Die ID des aufgelisteten Basisordners |
drive.listed.folder.name |
Der Name des Basisordners, der aufgelistet wurde |
drive.shared.drive.id |
Die ID des freigegebenen Laufwerks (wenn sich die Datei auf einem freigegebenen Laufwerk befindet) |
drive.shared.drive.name |
Der Name des freigegebenen Laufwerks (wenn sich die Datei auf einem freigegebenen Laufwerk befindet) |