SampleRecord 2025.5.31.15

Bundle

org.apache.nifi | nifi-standard-nar

Beschreibung

Nimmt eine Stichprobe der Datensätze eines FlowFile anhand einer festgelegten Stichprobenstrategie (z. B. Reservoir Sampling). Das resultierende FlowFile kann aus einer festen Anzahl von Datensätzen (im Fall von reservoirbasierten Algorithmen) oder einer Teilmenge der Gesamtzahl von Datensätzen (im Fall von probabilistischen Stichproben) oder einer deterministischen Anzahl von Datensätzen (im Fall von Intervallstichproben) bestehen.

Tags

interval, range, record, reservoir, sample

Eingabeanforderung

REQUIRED

Unterstützt sensible dynamische Eigenschaften

false

Eigenschaften

Eigenschaft

Beschreibung

record-reader

Gibt den Controller Service an, der für das Parsen eingehender Daten und die Bestimmung des Datenschemas verwendet werden soll

record-writer

Gibt den Controller Service an, der für das Schreiben von Ergebnissen in ein FlowFile verwendet werden soll.

sample-record-interval

Legt die Anzahl der Datensätze fest, die übersprungen werden sollen, bevor ein Datensatz in das ausgehende FlowFile geschrieben wird. Diese Eigenschaft wird nur verwendet, wenn die Sampling-Strategie auf Intervall-Sampling eingestellt ist. Ein Wert von Null (0) bewirkt, dass keine Datensätze in das ausgehende FlowFile aufgenommen werden, ein Wert von Eins (1) bewirkt, dass alle Datensätze aufgenommen werden, ein Wert von Zwei (2), dass die Hälfte der Datensätze aufgenommen wird usw.

sample-record-probability

Gibt die Wahrscheinlichkeit (in Prozent von 0-100) an, mit der ein Datensatz in das ausgehende FlowFile aufgenommen wird. Diese Eigenschaft wird nur verwendet, wenn die Sampling-Strategie auf „Probabilistic Sampling“ eingestellt ist. Ein Wert von Null (0) bewirkt, dass keine Datensätze in das ausgehende FlowFile aufgenommen werden, und ein Wert von 100 bewirkt, dass alle Datensätze in das ausgehende FlowFileaufgenommen werden.

sample-record-random-seed

Gibt eine bestimmte Zahl an, die als Startwert für den Zufallszahlengenerator verwendet werden soll (wird von probabilistischen Strategien verwendet). Durch Festlegen dieser Eigenschaft wird sichergestellt, dass auch bei Verwendung probabilistischer Strategien dieselben Datensätze ausgewählt werden.

sample-record-range

Gibt den Bereich der Datensätze an, die in die Stichprobe aufgenommen werden sollen, von 1 bis zur Gesamtzahl der Datensätze. Ein Beispiel ist „3,6-8,20-“, das den dritten Datensatz, den sechsten, siebten und achten Datensatz sowie alle Datensätze ab dem zwanzigsten Datensatz enthält. Kommas trennen Intervalle, die sich nicht überschneiden. Ein Intervall kann zwischen zwei Zahlen liegen (z. B. 6-8) oder bis zu einer bestimmten Zahl reichen (z. B. -5) oder von einer Zahl bis zur Zahl des letzten Datensatzes reichen (z. B. 20-). Wenn diese Eigenschaft nicht gesetzt ist, werden alle Datensätze berücksichtigt.

sample-record-reservoir

Gibt die Anzahl der Datensätze an, die in das ausgehende FlowFile geschrieben werden sollen. Diese Eigenschaft wird nur verwendet, wenn Sampling Strategy auf reservoirbasierte Strategien wie Reservoir Sampling eingestellt ist.

sample-record-sampling-strategy

Legt fest, welche Methode für das Sampling von Datensätzen aus dem eingehenden FlowFile verwendet werden soll

Beziehungen

Name

Beschreibung

failure

Wenn ein FlowFile aus irgendeinem Grund nicht verarbeitet werden kann (z. B. weil ein Datensatz ungültig ist), wird das Original-FlowFile an diese Beziehung weitergeleitet.

original

Das ursprüngliche FlowFile wird an diese Beziehung weitergeleitet, wenn das Sampling erfolgreich war

success

Das FlowFile wird an diese Beziehung weitergeleitet, wenn das Sampling erfolgreich abgeschlossen wurde.

Schreibt Attribute

Name

Beschreibung

mime.type

Der vom Record Writer angegebene MIME-Typ

record.count

Die Anzahl der Datensätze im resultierenden FlowFile