DetectDuplicate 2025.5.31.15

Pacote

org.apache.nifi | nifi-standard-nar

Descrição

Armazena em cache um valor, calculado a partir dos atributos FlowFile, para cada FlowFile de entrada e determina se o valor armazenado em cache já foi visto. Em caso afirmativo, encaminha o FlowFile para “duplicate” com um atributo chamado “original.identifier” que especifica a “description” do FlowFile original, que é especificada na propriedade <Descrição de FlowFile>. Se não for determinado que o FlowFile seja uma duplicata, o processador encaminha o FlowFile para “non-duplicate”

Tags

dedupe, dupe, duplicate, hash

Requisito de entrada

REQUIRED

Oferece suporte a propriedades dinâmicas confidenciais

falso

Propriedades

Propriedade

Descrição

Duração de expiração

Intervalo de tempo para a expiração dos FlowFiles em cache

Identificador de entrada de cache

Um atributo FlowFile, ou os resultados de uma instrução da linguagem de expressão de atributo, que será avaliado em um FlowFile para determinar o valor usado para identificar duplicatas; é esse valor que é armazenado em cache

Armazenar o identificador de entrada em cache

Quando verdadeiro, isso faz com que o processador verifique se há duplicatas e armazene em cache o identificador de entrada. Quando falso, o processador verificaria apenas as duplicatas e não armazenaria em cache o identificador de entrada, exigindo que outro processador adicionasse identificadores ao cache distribuído.

Serviço de cache distribuído

O Controller Service usado para armazenar em cache identificadores exclusivos usados para determinar duplicatas

Descrição FlowFile

Quando um FlowFile é adicionado ao cache, esse valor é armazenado junto com ele, de modo que, se uma duplicata for encontrada, essa descrição do FlowFile original será adicionada ao atributo “original.flowfile.description” da duplicata

Relações

Nome

Descrição

duplicate

Se for detectado que um FlowFile é uma duplicata, ele será encaminhado para essa relação

failure

Se não conseguir se comunicar com o cache, o FlowFile será penalizado e encaminhado para essa relação

non-duplicate

Se o identificador de entrada de cache do FlowFile não for encontrado no cache, ele será encaminhado para essa relação

Grava atributos

Nome

Descrição

original.flowfile.description

Todos os FlowFiles encaminhados para a relação duplicada terão um atributo adicionado chamado original.flowfile.description. O valor desse atributo é determinado pelos atributos da cópia original dos dados e pela propriedade de descrição do FlowFile.

Consulte também