ListSmb 2025.10.9.21

Pacote

org.apache.nifi | nifi-smb-nar

Descrição

Lista arquivos concretos compartilhados por meio do protocolo SMB. Cada arquivo listado pode resultar em um FlowFile, com os metadados sendo gravados como atributos FlowFile. Ou, caso a propriedade “Record Writer” esteja definida, todo o resultado é gravado como registros em um único FlowFile. Esse processador foi projetado para ser executado somente no nó primário em um cluster. Se o nó primário mudar, o novo nó primário continuará de onde o nó anterior parou sem duplicar todos os dados.

Tags

list, samba, smb, cifs, files

Requisito de entrada

FORBIDDEN

Oferece suporte a propriedades dinâmicas confidenciais

falso

Propriedades

Propriedade

Descrição

Entity Tracking Initial Listing Target

Especifique como a listagem inicial deve ser tratada. Usado pela estratégia de «Rastreamento de entidades».

Cache de estados de rastreamento de entidades

As entidades listadas são armazenadas no armazenamento em cache especificado para que este processador possa retomar a listagem após a reinicialização do NiFi ou em caso de alteração do nó primário. A estratégia de rastreamento de entidades de requer o rastreamento de informações de todas as entidades listadas dentro da última «janela de tempo de rastreamento». Para oferecer suporte a um grande número de entidades, a estratégia utiliza DistributedMapCache em vez de estado gerenciado. O formato da chave do cache é «ListedEntities::{processorId}(::{nodeId})». Se as entidades listadas forem rastreadas por nó, a parte opcional «::{nodeId}» será adicionada para gerenciar o estado separadamente. Por exemplo, chave de cache ampla do cluster = «ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b», por chave do cache do nó = «ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3» O conteúdo de cache armazenado é uma string JSON compactada com Gzip. A chave do cache será excluída quando a configuração da listagem de destino for alterada. Usado pela estratégia de «Rastreamento de entidades».

Janela de tempo de rastreamento de entidades

Especifique por quanto tempo esse processador deve rastrear entidades já listadas. A estratégia de «Rastreamento de entidades» pode escolher qualquer entidade cujo carimbo de data/hora esteja dentro da janela de tempo especificada. Por exemplo, se definido como “30 minutos”, qualquer entidade que tenha um carimbo de data/hora nos últimos 30 minutos será o destino da listagem quando esse processador for executado. Uma entidade listada será considerada «nova/atualizada» e um FlowFile será emitido se uma das seguintes condições for atendida: 1. não existe nas entidades já listadas, 2. tem um carimbo de data/hora mais recente do que a entidade em cache, 3. tem tamanho diferente do que a entidade em cache. Se o carimbo de data/hora de uma entidade em cache se tornar mais antigo do que o período especificado, essa entidade será removida das entidades em cache já listadas. Usado pela estratégia «Rastreamento de entidades».

Listing Strategy

Especifica como determinar entidades novas/atualizadas. Veja as descrições de cada estratégia para obter detalhes.

Record Writer

Especifica o Record Writer a ser usado para criar a listagem. Se não for especificado, será criado um FlowFile para cada entidade listada. Se o Record Writer for especificado, todas as entidades serão gravadas em um único FlowFile em vez de adicionar Rastreamento de entidades atributos aos FlowFiles.

Target System Timestamp Precision

Especifique a precisão do carimbo de data/hora no sistema de destino. Como esse processador usa o carimbo de data/hora das entidades para decidir quais devem ser listadas, é fundamental usar a precisão correta do carimbo de data/hora.

Diretório

A pasta de rede a partir da qual os arquivos serão listados. Este é o caminho relativo restante após o compartilhamento: smb://HOSTNAME:PORT/SHARE/[DIRECTORY]/sub/directories. Também é possível adicionar subdiretórios. O caminho fornecido no compartilhamento de arquivos remoto deve existir. Isso pode ser verificado por meio de verificação. Você pode misturar separadores de diretório no estilo Windows e Linux.

file-filter

Somente os arquivos cujos nomes correspondem à expressão regular fornecida serão listados.

file-name-suffix-filter

Os arquivos que terminam com o sufixo fornecido serão omitidos. Pode ser usado para garantir que os arquivos que ainda estão sendo carregados não sejam listados várias vezes, fazendo com que esses arquivos tenham um sufixo e removam o sufixo quando o upload for concluído. Isso é altamente recomendado ao usar as estratégias de listagem “Rastreamento de entidades” ou “Rastreamento de carimbos de data/hora”.

initial-listing-strategy

Especifica como lidar com os arquivos existentes no compartilhamento SMB quando o processador for iniciado pela primeira vez (ou quando seu estado tiver sido limpo).

initial-listing-timestamp

O carimbo de data/hora a partir do qual os arquivos serão listados quando o processador for iniciado pela primeira vez (ou seu estado tiver sido limpo). O valor pode ser especificado como um carimbo de data/hora de época em milissegundos ou como um datetime UTC em um formato como 2025-02-01T00:00:00Z

max-file-age

Qualquer arquivo mais antigo que o valor fornecido será omitido.

max-file-size

Qualquer arquivo maior que o valor fornecido será omitido.

min-file-age

A idade mínima que um arquivo deve ter para ser listado; qualquer arquivo mais novo que esse período de tempo será ignorado.

min-file-size

Qualquer arquivo menor que o valor fornecido será omitido.

path-filter

Somente os arquivos cujos caminhos (até o diretório pai do arquivo) correspondem à expressão regular fornecida serão listados.

smb-client-provider-service

Especifica o provedor de cliente SMB a ser usado para criar conexões SMB.

Gerenciamento do estado

Escopos

Descrição

CLUSTER

Depois de realizar uma listagem de arquivos, o estado da listagem anterior pode ser armazenado para listar arquivos continuamente sem duplicação.

Relações

Nome

Descrição

success

Todos os FlowFiles que são recebidos são encaminhados para a relação “success”

Grava atributos

Nome

Descrição

filename

O nome do arquivo que foi lido do sistema de arquivos.

shortName

O nome abreviado do arquivo que foi lido do sistema de arquivos.

path

O caminho é definido como o caminho relativo do diretório do arquivo no sistema de arquivos remoto em comparação com o diretório raiz do compartilhamento. Por exemplo, para um determinado local remoto smb://HOSTNAME:PORT/SHARE/DIRECTORY, e um arquivo estiver sendo listado em smb://HOSTNAME:PORT/SHARE/DIRECTORY/sub/folder/file, o atributo path será definido como “DIRECTORY/sub/folder”.

serviceLocation

O URL SMB da ação.

lastModifiedTime

O carimbo de data/hora de quando o conteúdo do arquivo foi alterado no sistema de arquivos como “yyyyy-MM-dd’T’HH:mm:ss”.

creationTime

O carimbo de data/hora de quando o arquivo foi criado no sistema de arquivos como “yyyyy-MM-dd’T’HH:mm:ss”.

lastAccessTime

O carimbo de data/hora de quando o arquivo foi acessado no sistema de arquivos como “yyyyy-MM-dd’T’HH:mm:ss”.

changeTime

O carimbo de data/hora de quando os atributos do arquivo foram alterados no sistema de arquivos como “yyyyy-MM-dd’T’HH:mm:ss”.

size

O tamanho do arquivo em bytes.

allocationSize

O número de bytes alocados para o arquivo no servidor.

Consulte também