DetectDuplicate 2025.5.31.15

Bundle

org.apache.nifi | nifi-standard-nar

Description

Met en cache une valeur, calculée à partir des attributs de FlowFile, pour chaque FlowFile entrant et détermine si la valeur mise en cache a déjà été vue. Si c’est le cas, routez le FlowFile vers duplicate avec un attribut nommé original.identifier qui spécifie la description du FlowFile original, qui est spécifiée dans la propriété <FlowFile Description>. Si le FlowFile n’est pas considéré comme un doublon, le processeur le route vers non-duplicate

Balises

dedupe, dupe, duplicate, hash

Exigences en matière d’entrées

REQUIRED

Prend en charge les propriétés dynamiques sensibles

false

Propriétés

Propriété

Description

Durée d’expiration

Intervalle de temps pour la désactivation des FlowFiles en cache

Identificateur d’entrée dans le cache

Un attribut FlowFile, ou le résultat d’une instruction du langage d’expression d’attribut, qui sera évalué par rapport à un FlowFile afin de déterminer la valeur utilisée pour identifier les doublons ; c’est cette valeur qui est mise en cache

Mise en cache de l’identificateur d’entrée

Si cette valeur est true, le processeur vérifie les doublons et met en cache l’identificateur d’entrée. Si elle est false, le processeur ne vérifie que les doublons et ne met pas en cache l’identificateur d’entrée, ce qui exige qu’un autre processeur ajoute des identificateurs au cache distribué.

Service de cache distribué

Le Controller Service qui est utilisé pour mettre en cache les identificateurs uniques utilisés pour déterminer les doublons

Description FlowFile

Lorsqu’unFlowFile est ajouté au cache, cette valeur est stockée avec lui de sorte que si un duplicata est trouvé, cette description du FlowFile original sera ajoutée à l’attribut original.flowfile.description du duplicata

Relations

Nom

Description

duplicate

Si un FlowFile a été détecté comme étant un doublon, il sera routé vers cette relation

failure

En cas d’impossibilité de communiquer avec le cache, le FlowFile sera pénalisé et routé vers cette relation.

non-duplicate

Si l’identificateur d’entrée de cache d’un FlowFilen’a pas été trouvé dans le cache, il sera routé vers cette relation

Écrit les attributs

Nom

Description

original.flowfile.description

Tous les FlowFiles routés vers la relation dupliquée se verront ajouter un attribut nommé original.flowfile.description. La valeur de cet attribut est déterminée par les attributs de la copie originale des données et par la propriété Description du FlowFile.

Voir aussi :