ListGoogleDrive 2025.5.31.15

Bundle

org.apache.nifi | nifi-gcp-nar

Beschreibung

Listet konkrete Dateien (Verknüpfungen werden ignoriert) in einem Google Drive-Ordner auf. Wenn die Eigenschaft „Record Writer“ eingestellt ist, wird ein einzelnes Ausgabe-FlowFile erstellt und jede Datei in der List wird als ein einzelner Datensatz in die Ausgabedatei geschrieben. Andernfalls wird für jede Datei in der Liste ein individuelles FlowFile erstellt, wobei die Metadaten als FlowFile-Attribute geschrieben werden. Dieser Prozessor ist für den Betrieb auf dem primären Knoten in einem Cluster vorgesehen. Wenn sich der primäre Knoten ändert, macht der neue primäre Knoten dort weiter, wo der vorherige Knoten aufgehört hat, ohne alle Daten zu duplizieren. Um den Zugriff auf Google Drive einzurichten, sehen Sie bitte unter „Weitere Details“ nach.

Tags

drive, google, storage

Eingabeanforderung

FORBIDDEN

Unterstützt sensible dynamische Eigenschaften

false

Eigenschaften

Eigenschaft

Beschreibung

connect-timeout

Maximale Wartezeit für die Verbindung mit dem Google Drive-Dienst.

et-initial-listing-target

Legen Sie fest, wie das erste Freigabeangebot behandelt werden soll. Wird von der Strategie „Tracking Entities“ verwendet.

et-state-cache

Freigegebene Entitäten werden im angegebenen Cache-Speicher gespeichert, sodass dieser Prozessor die Freigabe bei einem Neustart von NiFi oder bei einem Wechsel des primären Knotens wieder aufnehmen kann. „Tracking Entities“-Strategie erfordert Tracking-Informationen von allen aufgelisteten Entitäten innerhalb des letzten „Tracking Time Window“. Um eine große Anzahl von Entitäten zu unterstützen, verwendet die Strategie DistributedMapCache anstelle eines verwalteten Zustands. Das Format des Cache-Schlüssels ist „ListedEntities: :{processorId}(::{nodeId})“. Wenn es pro Knoten aufgelistete Entitäten verfolgt, dann wird der optionale Teil „::{nodeId}“ hinzugefügt, um den Status separat zu verwalten. Beispiel: Clusterweiter Cache-Schlüssel = „ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b“, Cache-Schlüssel pro Knoten = „ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3“ Der gespeicherte Cache-Inhalt ist eine Gzipped JSON-Zeichenkette. Der Cache-Schlüssel wird gelöscht, wenn die Konfiguration der Zielliste geändert wird. Wird von der Strategie „Tracking Entities“ verwendet.

et-time-window

Geben Sie an, wie lange dieser Prozessor bereits gelistete Entitäten verfolgen soll. Die Strategie „Tracking Entities“ kann jede Entität auswählen, deren Zeitstempel innerhalb des angegebenen Zeitfensters liegt. Wenn Sie z. B. „30 Minuten“ einstellen, wird jede Entität, deren Zeitstempel in den letzten 30 Minuten liegt, das Ziel des Freigabeangebots sein, wenn dieser Prozessor läuft. Ein gelistete Entität gilt als „neu/aktualisiert“ und ein FlowFile wird ausgegeben, wenn eine der folgenden Bedingungen erfüllt ist: 1. Sie ist nicht in den bereits gelisteten Entitäten vorhanden, 2. Sie hat einen neueren Zeitstempel als die zwischengespeicherte Entität, 3. Sie hat eine andere Größe als die zwischengespeicherte Entität. Wenn der Zeitstempel einer zwischengespeicherten Entität älter ist als das angegebene Zeitfenster, wird diese Entität aus den zwischengespeicherten, bereits gelisteten Entitäten entfernt. Wird von der Strategie „Tracking Entities“ verwendet.

folder-id

Die ID des Ordners, aus dem die Liste der Dateien abgerufen werden soll. Bitte sehen Sie unter „Weitere Details“ nach, um den Zugriff auf Google Drive einzurichten und die Ordner-ID zu erhalten. WARNING: Unerlaubter Zugriff auf den Ordner wird so behandelt, als ob der Ordner leer wäre. Dies führt dazu, dass der Prozessor keine ausgehenden FlowFiles erstellt. Es wird keine zusätzliche Fehlermeldung angezeigt.

gcp-credentials-provider-service

Der Controller Service, der verwendet wird, um Anmeldeinformationen für Google Cloud Platform zu erhalten.

listing-strategy

Legen Sie fest, wie neue/aktualisierte Entitäten ermittelt werden sollen. Weitere Informationen finden Sie in den Beschreibungen der einzelnen Strategien.

min-age

Das Mindestalter, das eine Datei haben muss, um berücksichtigt zu werden. Alle Dateien, die jünger sind als dieser Wert, werden ignoriert.

proxy-configuration-service

Gibt den Proxy-Konfigurations-Controller Service an für die Weiterleitung von Netzwerkanforderungen festl.

read-timeout

Maximale Wartezeit auf eine Antwort vom Google Drive-Dienst.

record-writer

Gibt den Record Writer an, der zum Erstellen der Liste verwendet werden soll. Wenn nicht angegeben, wird für jede aufgelistete Entität ein FlowFile erstellt. Wenn der Record Writer angegeben ist, werden alle Entitäten in ein einziges FlowFile geschrieben, anstatt Attribute zu einzelnen FlowFiles hinzuzufügen.

recursive-search

Bie „true“ wird die Liste der Dateien aus konkreten Unterordnern einbezogen (Verknüpfungen werden ignoriert). Andernfalls werden nur Dateien zurückgegeben, die die definierte „Folder ID“ direkt als übergeordnete Datei haben. WARNING: Die Auflistung kann fehlschlagen, wenn zu viele Unterordner vorhanden sind (500+).

Statusmanagement

Bereiche

Beschreibung

CLUSTER

Der Prozessor speichert die notwendigen Daten, um zu verfolgen, welche Dateien bereits aufgelistet wurden. Was genau gespeichert werden muss, hängt von der „Listing Strategy“ ab. Der Status wird im gesamten Cluster gespeichert, sodass dieser Prozessor nur auf dem primären Knoten ausgeführt werden kann. Wenn ein neuer primärer Knoten ausgewählt wird, kann der neue Knoten dort weitermachen, wo der vorherige Knoten aufgehört hat, ohne die Daten zu duplizieren.

Beziehungen

Name

Beschreibung

success

Alle FlowFiles, die empfangen werden, werden an die Beziehung „success“ weitergeleitet.

Schreibt Attribute

Name

Beschreibung

drive.id

Die ID der Datei

filename

Der Name der Datei

mime.type

Der MIME-Typ der Datei

drive.size

Die Größe der Datei. Auf 0 gesetzt, wenn die Dateigröße nicht verfügbar ist (z. B. bei extern gespeicherten Dateien).

drive.size.available

Zeigt an, ob die Dateigröße bekannt/verfügbar ist

drive.timestamp

Der Zeitpunkt der letzten Änderung oder der Erstellungszeit (je nachdem, was größer ist) der Datei. Der Grund dafür ist, dass das ursprüngliche Änderungsdatum einer Datei erhalten bleibt, wenn sie in Google Drive hochgeladen wird. Die „Created time“ ist der Zeitpunkt, an dem der Upload erfolgt. Hochgeladene Dateien können jedoch auch später noch geändert werden.

drive.created.time

Die Erstellungszeit der Datei

drive.modified.time

Die Zeit der letzten Änderung der Datei

drive.path

Der Pfad des Verzeichnisses der Datei vom Basisverzeichnis aus. Der Pfad enthält die Ordnernamen in URL-codierter Form, da Google Drive Sonderzeichen in Dateinamen zulässt, darunter „/“ (Schrägstrich) und „“ (Backslash). Die URL-codierten Ordnernamen werden im Pfad durch „/“ getrennt.

drive.owner

Der Eigentümer der Datei

drive.last.modifying.user

Der zuletzt ändernde Benutzer der Datei

drive.web.view.link

Link zur Webansicht der Datei

drive.web.content.link

Link zum Webinhalt der Datei

drive.parent.folder.id

Die ID des übergeordneten Ordners der Datei

drive.parent.folder.name

Der Name des übergeordneten Ordners der Datei

drive.listed.folder.id

Die ID des aufgelisteten Basisordners

drive.listed.folder.name

Der Name des Basisordners, der aufgelistet wurde

drive.shared.drive.id

Die ID des freigegebenen Laufwerks (wenn sich die Datei auf einem freigegebenen Laufwerk befindet)

drive.shared.drive.name

Der Name des freigegebenen Laufwerks (wenn sich die Datei auf einem freigegebenen Laufwerk befindet)

Siehe auch: