SampleRecord 2025.5.31.15

Bundle

org.apache.nifi | nifi-standard-nar

Description

Échantillonne les enregistrements d’un FlowFile sur la base d’une stratégie d’échantillonnage spécifiée (telle que l’échantillonnage de réservoir). Le FlowFile qui en résulte peut contenir un nombre fixe d’enregistrements (dans le cas des algorithmes basés sur les réservoirs) ou un sous-ensemble du nombre total d’enregistrements (dans le cas de l’échantillonnage probabiliste), ou encore un nombre déterministe d’enregistrements (dans le cas de l’échantillonnage par intervalles).

Balises

interval, range, record, reservoir, sample

Exigences en matière d’entrées

REQUIRED

Prend en charge les propriétés dynamiques sensibles

false

Propriétés

Propriété

Description

record-reader

Spécifie le Controller Service à utiliser pour analyser les données entrantes et déterminer le schéma des données

record-writer

Spécifie le Controller Service à utiliser pour écrire les résultats dans un FlowFile.

sample-record-interval

Spécifie le nombre d’enregistrements à sauter avant d’écrire un enregistrement dans le FlowFile sortant. Cette propriété n’est utilisée que si la stratégie d’échantillonnage est réglée sur l’échantillonnage par intervalles. Une valeur de zéro (0) signifie qu’aucun enregistrement n’est inclus dans le FlowFile sortant, une valeur de un (1) signifie que tous les enregistrements sont inclus, une valeur de deux (2) signifie que la moitié des enregistrements est incluse, et ainsi de suite.

sample-record-probability

Spécifie la probabilité (en pourcentage compris entre 0 et 100) qu’un enregistrement soit inclus dans le FlowFile sortant. Cette propriété n’est utilisée que si la stratégie d’échantillonnage est réglée sur l’échantillonnage probabiliste. Une valeur de zéro (0) signifie qu’aucun enregistrement n’est inclus dans le FlowFile sortant, et une valeur de 100 signifie que tous les enregistrements sont inclus dans le FlowFile sortant.

sample-record-random-seed

Spécifie un nombre particulier à utiliser comme graine pour le générateur de nombres aléatoires (utilisé par les stratégies probabilistes). Le paramètre de cette propriété permet de s’assurer que les mêmes enregistrements sont sélectionnés, même lors de l’utilisation de stratégies probabilistes.

sample-record-range

Spécifie la plage d’enregistrements à inclure dans l’échantillon, de 1 au nombre total d’enregistrements. Un exemple est “3,6-8,20-” qui inclut le troisième enregistrement, les sixième, septième et huitième enregistrements, ainsi que tous les enregistrements à partir du vingtième. Les virgules séparent les intervalles qui ne se chevauchent pas, et un intervalle peut être compris entre deux nombres (par exemple 6-8) ou jusqu’à un nombre donné (par exemple -5), ou d’un nombre au numéro du dernier enregistrement (par exemple 20-). Si cette propriété n’est pas définie, tous les enregistrements seront inclus.

sample-record-reservoir

Spécifie le nombre d’enregistrements à écrire dans le FlowFile sortant. Cette propriété n’est utilisée que si la stratégie d’échantillonnage est paramétrée sur des stratégies basées sur les réservoirs, telles que l’échantillonnage des réservoirs.

sample-record-sampling-strategy

Spécifie la méthode à utiliser pour échantillonner les enregistrements provenant du FlowFile entrant.

Relations

Nom

Description

failure

Si un FlowFile échoue lors du traitement pour quelque raison que ce soit (par exemple, si un enregistrement n’est pas valide), le FlowFile original sera dirigé vers cette relation.

original

Le FlowFile d’origine est dirigé vers cette relation si l’échantillonnage réussit.

success

Le FlowFile est dirigé vers cette relation si l’échantillonnage s’est terminé avec succès.

Écrit les attributs

Nom

Description

mime.type

Le type MIME indiqué par le Record Writer

record.count

Le nombre d’enregistrements dans le FlowFile résultant