SampleRecord 2025.5.31.15¶
Bundle¶
org.apache.nifi | nifi-standard-nar
Beschreibung¶
Nimmt eine Stichprobe der Datensätze eines FlowFile anhand einer festgelegten Stichprobenstrategie (z. B. Reservoir Sampling). Das resultierende FlowFile kann aus einer festen Anzahl von Datensätzen (im Fall von reservoirbasierten Algorithmen) oder einer Teilmenge der Gesamtzahl von Datensätzen (im Fall von probabilistischen Stichproben) oder einer deterministischen Anzahl von Datensätzen (im Fall von Intervallstichproben) bestehen.
Eingabeanforderung¶
REQUIRED
Unterstützt sensible dynamische Eigenschaften¶
false
Eigenschaften¶
Eigenschaft |
Beschreibung |
---|---|
record-reader |
Gibt den Controller Service an, der für das Parsen eingehender Daten und die Bestimmung des Datenschemas verwendet werden soll |
record-writer |
Gibt den Controller Service an, der für das Schreiben von Ergebnissen in ein FlowFile verwendet werden soll. |
sample-record-interval |
Legt die Anzahl der Datensätze fest, die übersprungen werden sollen, bevor ein Datensatz in das ausgehende FlowFile geschrieben wird. Diese Eigenschaft wird nur verwendet, wenn die Sampling-Strategie auf Intervall-Sampling eingestellt ist. Ein Wert von Null (0) bewirkt, dass keine Datensätze in das ausgehende FlowFile aufgenommen werden, ein Wert von Eins (1) bewirkt, dass alle Datensätze aufgenommen werden, ein Wert von Zwei (2), dass die Hälfte der Datensätze aufgenommen wird usw. |
sample-record-probability |
Gibt die Wahrscheinlichkeit (in Prozent von 0-100) an, mit der ein Datensatz in das ausgehende FlowFile aufgenommen wird. Diese Eigenschaft wird nur verwendet, wenn die Sampling-Strategie auf „Probabilistic Sampling“ eingestellt ist. Ein Wert von Null (0) bewirkt, dass keine Datensätze in das ausgehende FlowFile aufgenommen werden, und ein Wert von 100 bewirkt, dass alle Datensätze in das ausgehende FlowFileaufgenommen werden. |
sample-record-random-seed |
Gibt eine bestimmte Zahl an, die als Startwert für den Zufallszahlengenerator verwendet werden soll (wird von probabilistischen Strategien verwendet). Durch Festlegen dieser Eigenschaft wird sichergestellt, dass auch bei Verwendung probabilistischer Strategien dieselben Datensätze ausgewählt werden. |
sample-record-range |
Gibt den Bereich der Datensätze an, die in die Stichprobe aufgenommen werden sollen, von 1 bis zur Gesamtzahl der Datensätze. Ein Beispiel ist „3,6-8,20-“, das den dritten Datensatz, den sechsten, siebten und achten Datensatz sowie alle Datensätze ab dem zwanzigsten Datensatz enthält. Kommas trennen Intervalle, die sich nicht überschneiden. Ein Intervall kann zwischen zwei Zahlen liegen (z. B. 6-8) oder bis zu einer bestimmten Zahl reichen (z. B. -5) oder von einer Zahl bis zur Zahl des letzten Datensatzes reichen (z. B. 20-). Wenn diese Eigenschaft nicht gesetzt ist, werden alle Datensätze berücksichtigt. |
sample-record-reservoir |
Gibt die Anzahl der Datensätze an, die in das ausgehende FlowFile geschrieben werden sollen. Diese Eigenschaft wird nur verwendet, wenn Sampling Strategy auf reservoirbasierte Strategien wie Reservoir Sampling eingestellt ist. |
sample-record-sampling-strategy |
Legt fest, welche Methode für das Sampling von Datensätzen aus dem eingehenden FlowFile verwendet werden soll |
Beziehungen¶
Name |
Beschreibung |
---|---|
failure |
Wenn ein FlowFile aus irgendeinem Grund nicht verarbeitet werden kann (z. B. weil ein Datensatz ungültig ist), wird das Original-FlowFile an diese Beziehung weitergeleitet. |
original |
Das ursprüngliche FlowFile wird an diese Beziehung weitergeleitet, wenn das Sampling erfolgreich war |
success |
Das FlowFile wird an diese Beziehung weitergeleitet, wenn das Sampling erfolgreich abgeschlossen wurde. |
Schreibt Attribute¶
Name |
Beschreibung |
---|---|
mime.type |
Der vom Record Writer angegebene MIME-Typ |
record.count |
Die Anzahl der Datensätze im resultierenden FlowFile |