DeduplicateRecord 2025.10.9.21¶

Pacote¶

org.apache.nifi | nifi-standard-nar

Descrição¶

Esse processador elimina a duplicação de registros individuais em um conjunto de registros. Ele pode operar por arquivo usando um hashset na memória ou um filtro bloom. Quando configurado com um cache de mapa distribuído, ele elimina a duplicação de registros em vários arquivos.

Tags¶

change, dedupe, distinct, dupe, duplicate, filter, hash, modify, record, replace, text, unique, update

Requisito de entrada¶

REQUIRED

Oferece suporte a propriedades dinâmicas confidenciais¶

falso

Propriedades¶


Propriedade	Descrição
bloom-filter-certainty	A probabilidade de falso positivo desejada ao usar o tipo BloomFilter. O uso de um valor de 0,05, por exemplo, garante uma probabilidade de cinco por cento de que o resultado seja um falso positivo. Quanto mais próximo de 1 esse valor for definido, mais preciso será o resultado à custa do uso de mais espaço de armazenamento.
cache-identifier	Um campo opcional de linguagem de expressão que substitui a chave de cache computada do registro. Esse campo tem um atributo adicional disponível: ${record.hash.value}, que contém a chave de cache derivada de propriedades dinâmicas (se definidas) ou campos de registro.
deduplication-strategy	A estratégia a ser usada para detectar e rotear registros duplicados. A opção de detecção de duplicatas em um único FlowFile opera na memória, enquanto a detecção que abrange vários FlowFiles utiliza um cache de mapa distribuído.
distributed-map-cache	Essa propriedade é necessária quando a estratégia de eliminação de duplicação é definida como “vários arquivos” O cache do mapa verificará atomicamente, para cada registro, se a chave do cache existe e, se não existir, a definirá.
filter-capacity-hint	Uma estimativa do número total de registros exclusivos a serem processados. Quanto mais preciso for esse número, menor será o número de falsos negativos em um BloomFilter.
filter-type	O filtro usado para determinar se um registro já foi visto antes com base nos critérios correspondentes de RecordPath. Se o conjunto de hash for selecionado, um objeto Java HashSet será usado para eliminar duplicação todos os registros encontrados. Se a opção de filtro Bloom for selecionada, será usado um filtro Bloom. A opção de filtro Bloom consome menos memória, mas tem a chance de ter falsos positivos.
include-zero-record-flowfiles	Se um FlowFile enviado às relações duplicadas ou não duplicadas não contiver registros, um valor de `false` nessa propriedade fará com que o FlowFile seja descartado. Caso contrário, o FlowFile vazio é emitido.
put-cache-identifier	Para cada registro, verifique se o identificador de cache existe no cache de mapa distribuído. Se ele não existir e essa propriedade for verdadeira, o identificador será colocado em cache.
record-hashing-algorithm	O algoritmo usado para fazer o hash da chave do cache.
record-reader	Especifica o Controller Service a ser usado para ler os dados recebidos
record-writer	Especifica o Controller Service a ser usado para gravar os registros

Relações¶


Nome	Descrição
duplicate	Os registros detectados como duplicados são encaminhados para essa relação.
failure	Se não conseguir se comunicar com o cache, o FlowFile será penalizado e encaminhado para essa relação
non-duplicate	Os registros não encontrados em cache são encaminhados para essa relação.
original	O FlowFile de entrada original é enviado para essa relação, a menos que ocorra um erro fatal.

Grava atributos¶


Nome	Descrição
record.count	Número de registros gravados no FlowFile de destino.

Consulte também¶

org.apache.nifi.processors.standard.DetectDuplicate