ListBoxFile 2025.10.2.19

Pacote

org.apache.nifi | nifi-box-nar

Descrição

Lista os arquivos em uma pasta Box. Cada arquivo listado pode resultar em um FlowFile, com os metadados sendo gravados como atributos FlowFile. Ou, caso a propriedade “Record Writer” esteja definida, todo o resultado é gravado como registros em um único FlowFile. Esse processador foi projetado para ser executado somente no nó primário em um cluster. Se o nó primário mudar, o novo nó primário continuará de onde o nó anterior parou sem duplicar todos os dados.

Tags

box, storage

Requisito de entrada

FORBIDDEN

Oferece suporte a propriedades dinâmicas confidenciais

falso

Propriedades

Propriedade

Descrição

Serviço Box Client

Controller Service usado para obter uma conexão da Box API.

ID da pasta

O ID da pasta da qual a lista de arquivos será extraída.

Idade mínima do arquivo

A idade mínima que um arquivo deve ter para ser considerado; qualquer arquivo mais novo que isso será ignorado.

Pesquisar recursivamente

Quando “verdadeiro”, incluirá a lista de arquivos das subpastas. Caso contrário, retornará apenas os arquivos que estão dentro da pasta definida pela propriedade “ID de pasta”.

et-initial-listing-target

Especifique como a listagem inicial deve ser tratada. Usado pela estratégia de «Rastreamento de entidades».

et-state-cache

As entidades listadas são armazenadas no armazenamento em cache especificado para que este processador possa retomar a listagem após a reinicialização do NiFi ou em caso de alteração do nó primário. A estratégia de rastreamento de entidades de requer o rastreamento de informações de todas as entidades listadas dentro da última «janela de tempo de rastreamento». Para oferecer suporte a um grande número de entidades, a estratégia utiliza DistributedMapCache em vez de estado gerenciado. O formato da chave do cache é «ListedEntities::{processorId}(::{nodeId})». Se as entidades listadas forem rastreadas por nó, a parte opcional «::{nodeId}» será adicionada para gerenciar o estado separadamente. Por exemplo, chave de cache ampla do cluster = «ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b», por chave do cache do nó = «ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3» O conteúdo de cache armazenado é uma string JSON compactada com Gzip. A chave do cache será excluída quando a configuração da listagem de destino for alterada. Usado pela estratégia de «Rastreamento de entidades».

et-time-window

Especifique por quanto tempo esse processador deve rastrear entidades já listadas. A estratégia de «Rastreamento de entidades» pode escolher qualquer entidade cujo carimbo de data/hora esteja dentro da janela de tempo especificada. Por exemplo, se definido como “30 minutos”, qualquer entidade que tenha um carimbo de data/hora nos últimos 30 minutos será o destino da listagem quando esse processador for executado. Uma entidade listada será considerada «nova/atualizada» e um FlowFile será emitido se uma das seguintes condições for atendida: 1. não existe nas entidades já listadas, 2. tem um carimbo de data/hora mais recente do que a entidade em cache, 3. tem tamanho diferente do que a entidade em cache. Se o carimbo de data/hora de uma entidade em cache se tornar mais antigo do que o período especificado, essa entidade será removida das entidades em cache já listadas. Usado pela estratégia «Rastreamento de entidades».

listing-strategy

Especifica como determinar entidades novas/atualizadas. Veja as descrições de cada estratégia para obter detalhes.

record-writer

Especifica o Record Writer a ser usado para criar a listagem. Se não for especificado, será criado um FlowFile para cada entidade listada. Se o Record Writer for especificado, todas as entidades serão gravadas em um único FlowFile em vez de adicionar Rastreamento de entidades atributos aos FlowFiles.

Gerenciamento do estado

Escopos

Descrição

CLUSTER

O processador armazena os dados necessários para poder rastrear quais arquivos já foram listados. O que exatamente precisa ser armazenado depende da “Estratégia de listagem”.

Relações

Nome

Descrição

success

Todos os FlowFiles que são recebidos são encaminhados para a relação “success”

Grava atributos

Nome

Descrição

box.id

O ID do arquivo

filename

O nome do arquivo

path

O caminho da pasta onde o arquivo está localizado

box.size

O tamanho do arquivo

box.timestamp

O horário da última modificação do arquivo

Consulte também