DeduplicateRecord 2025.5.31.15¶
Pacote¶
org.apache.nifi | nifi-standard-nar
Descrição¶
Esse processador elimina a duplicação de registros individuais em um conjunto de registros. Ele pode operar por arquivo usando um hashset na memória ou um filtro bloom. Quando configurado com um cache de mapa distribuído, ele elimina a duplicação de registros em vários arquivos.
Requisito de entrada¶
REQUIRED
Oferece suporte a propriedades dinâmicas confidenciais¶
falso
Propriedades¶
Propriedade |
Descrição |
---|---|
bloom-filter-certainty |
A probabilidade de falso positivo desejada ao usar o tipo BloomFilter. O uso de um valor de 0,05, por exemplo, garante uma probabilidade de cinco por cento de que o resultado seja um falso positivo. Quanto mais próximo de 1 esse valor for definido, mais preciso será o resultado à custa do uso de mais espaço de armazenamento. |
cache-identifier |
Um campo opcional de linguagem de expressão que substitui a chave de cache computada do registro. Esse campo tem um atributo adicional disponível: ${record.hash.value}, que contém a chave de cache derivada de propriedades dinâmicas (se definidas) ou campos de registro. |
deduplication-strategy |
A estratégia a ser usada para detectar e rotear registros duplicados. A opção de detecção de duplicatas em um único FlowFile opera na memória, enquanto a detecção que abrange vários FlowFiles utiliza um cache de mapa distribuído. |
distributed-map-cache |
Essa propriedade é necessária quando a estratégia de eliminação de duplicação é definida como “vários arquivos” O cache do mapa verificará atomicamente, para cada registro, se a chave do cache existe e, se não existir, a definirá. |
filter-capacity-hint |
Uma estimativa do número total de registros exclusivos a serem processados. Quanto mais preciso for esse número, menor será o número de falsos negativos em um BloomFilter. |
filter-type |
O filtro usado para determinar se um registro já foi visto antes com base nos critérios correspondentes de RecordPath. Se o conjunto de hash for selecionado, um objeto Java HashSet será usado para eliminar duplicação todos os registros encontrados. Se a opção de filtro Bloom for selecionada, será usado um filtro Bloom. A opção de filtro Bloom consome menos memória, mas tem a chance de ter falsos positivos. |
include-zero-record-flowfiles |
Se um FlowFile enviado às relações duplicadas ou não duplicadas não contiver registros, um valor de |
put-cache-identifier |
Para cada registro, verifique se o identificador de cache existe no cache de mapa distribuído. Se ele não existir e essa propriedade for verdadeira, o identificador será colocado em cache. |
record-hashing-algorithm |
O algoritmo usado para fazer o hash da chave do cache. |
record-reader |
Especifica o Controller Service a ser usado para ler os dados recebidos |
record-writer |
Especifica o Controller Service a ser usado para gravar os registros |
Relações¶
Nome |
Descrição |
---|---|
duplicate |
Os registros detectados como duplicados são encaminhados para essa relação. |
failure |
Se não conseguir se comunicar com o cache, o FlowFile será penalizado e encaminhado para essa relação |
non-duplicate |
Os registros não encontrados em cache são encaminhados para essa relação. |
original |
O FlowFile de entrada original é enviado para essa relação, a menos que ocorra um erro fatal. |
Grava atributos¶
Nome |
Descrição |
---|---|
record.count |
Número de registros gravados no FlowFile de destino. |