DeduplicateRecord 2025.5.31.15

Pacote

org.apache.nifi | nifi-standard-nar

Descrição

Esse processador elimina a duplicação de registros individuais em um conjunto de registros. Ele pode operar por arquivo usando um hashset na memória ou um filtro bloom. Quando configurado com um cache de mapa distribuído, ele elimina a duplicação de registros em vários arquivos.

Tags

change, dedupe, distinct, dupe, duplicate, filter, hash, modify, record, replace, text, unique, update

Requisito de entrada

REQUIRED

Oferece suporte a propriedades dinâmicas confidenciais

falso

Propriedades

Propriedade

Descrição

bloom-filter-certainty

A probabilidade de falso positivo desejada ao usar o tipo BloomFilter. O uso de um valor de 0,05, por exemplo, garante uma probabilidade de cinco por cento de que o resultado seja um falso positivo. Quanto mais próximo de 1 esse valor for definido, mais preciso será o resultado à custa do uso de mais espaço de armazenamento.

cache-identifier

Um campo opcional de linguagem de expressão que substitui a chave de cache computada do registro. Esse campo tem um atributo adicional disponível: ${record.hash.value}, que contém a chave de cache derivada de propriedades dinâmicas (se definidas) ou campos de registro.

deduplication-strategy

A estratégia a ser usada para detectar e rotear registros duplicados. A opção de detecção de duplicatas em um único FlowFile opera na memória, enquanto a detecção que abrange vários FlowFiles utiliza um cache de mapa distribuído.

distributed-map-cache

Essa propriedade é necessária quando a estratégia de eliminação de duplicação é definida como “vários arquivos” O cache do mapa verificará atomicamente, para cada registro, se a chave do cache existe e, se não existir, a definirá.

filter-capacity-hint

Uma estimativa do número total de registros exclusivos a serem processados. Quanto mais preciso for esse número, menor será o número de falsos negativos em um BloomFilter.

filter-type

O filtro usado para determinar se um registro já foi visto antes com base nos critérios correspondentes de RecordPath. Se o conjunto de hash for selecionado, um objeto Java HashSet será usado para eliminar duplicação todos os registros encontrados. Se a opção de filtro Bloom for selecionada, será usado um filtro Bloom. A opção de filtro Bloom consome menos memória, mas tem a chance de ter falsos positivos.

include-zero-record-flowfiles

Se um FlowFile enviado às relações duplicadas ou não duplicadas não contiver registros, um valor de false nessa propriedade fará com que o FlowFile seja descartado. Caso contrário, o FlowFile vazio é emitido.

put-cache-identifier

Para cada registro, verifique se o identificador de cache existe no cache de mapa distribuído. Se ele não existir e essa propriedade for verdadeira, o identificador será colocado em cache.

record-hashing-algorithm

O algoritmo usado para fazer o hash da chave do cache.

record-reader

Especifica o Controller Service a ser usado para ler os dados recebidos

record-writer

Especifica o Controller Service a ser usado para gravar os registros

Relações

Nome

Descrição

duplicate

Os registros detectados como duplicados são encaminhados para essa relação.

failure

Se não conseguir se comunicar com o cache, o FlowFile será penalizado e encaminhado para essa relação

non-duplicate

Os registros não encontrados em cache são encaminhados para essa relação.

original

O FlowFile de entrada original é enviado para essa relação, a menos que ocorra um erro fatal.

Grava atributos

Nome

Descrição

record.count

Número de registros gravados no FlowFile de destino.

Consulte também