ListSmb 2025.10.2.19¶
Pacote¶
org.apache.nifi | nifi-smb-nar
Descrição¶
Lista arquivos concretos compartilhados por meio do protocolo SMB. Cada arquivo listado pode resultar em um FlowFile, com os metadados sendo gravados como atributos FlowFile. Ou, caso a propriedade “Record Writer” esteja definida, todo o resultado é gravado como registros em um único FlowFile. Esse processador foi projetado para ser executado somente no nó primário em um cluster. Se o nó primário mudar, o novo nó primário continuará de onde o nó anterior parou sem duplicar todos os dados.
Requisito de entrada¶
FORBIDDEN
Oferece suporte a propriedades dinâmicas confidenciais¶
falso
Propriedades¶
Propriedade |
Descrição |
|---|---|
Diretório |
A pasta de rede a partir da qual os arquivos serão listados. Este é o caminho relativo restante após o compartilhamento: smb://HOSTNAME:PORT/SHARE/[DIRECTORY]/sub/directories. Também é possível adicionar subdiretórios. O caminho fornecido no compartilhamento de arquivos remoto deve existir. Isso pode ser verificado por meio de verificação. Você pode misturar separadores de diretório no estilo Windows e Linux. |
et-initial-listing-target |
Especifique como a listagem inicial deve ser tratada. Usado pela estratégia de «Rastreamento de entidades». |
et-state-cache |
As entidades listadas são armazenadas no armazenamento em cache especificado para que este processador possa retomar a listagem após a reinicialização do NiFi ou em caso de alteração do nó primário. A estratégia de rastreamento de entidades de requer o rastreamento de informações de todas as entidades listadas dentro da última «janela de tempo de rastreamento». Para oferecer suporte a um grande número de entidades, a estratégia utiliza DistributedMapCache em vez de estado gerenciado. O formato da chave do cache é «ListedEntities::{processorId}(::{nodeId})». Se as entidades listadas forem rastreadas por nó, a parte opcional «::{nodeId}» será adicionada para gerenciar o estado separadamente. Por exemplo, chave de cache ampla do cluster = «ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b», por chave do cache do nó = «ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3» O conteúdo de cache armazenado é uma string JSON compactada com Gzip. A chave do cache será excluída quando a configuração da listagem de destino for alterada. Usado pela estratégia de «Rastreamento de entidades». |
et-time-window |
Especifique por quanto tempo esse processador deve rastrear entidades já listadas. A estratégia de «Rastreamento de entidades» pode escolher qualquer entidade cujo carimbo de data/hora esteja dentro da janela de tempo especificada. Por exemplo, se definido como “30 minutos”, qualquer entidade que tenha um carimbo de data/hora nos últimos 30 minutos será o destino da listagem quando esse processador for executado. Uma entidade listada será considerada «nova/atualizada» e um FlowFile será emitido se uma das seguintes condições for atendida: 1. não existe nas entidades já listadas, 2. tem um carimbo de data/hora mais recente do que a entidade em cache, 3. tem tamanho diferente do que a entidade em cache. Se o carimbo de data/hora de uma entidade em cache se tornar mais antigo do que o período especificado, essa entidade será removida das entidades em cache já listadas. Usado pela estratégia «Rastreamento de entidades». |
file-filter |
Somente os arquivos cujos nomes correspondem à expressão regular fornecida serão listados. |
file-name-suffix-filter |
Os arquivos que terminam com o sufixo fornecido serão omitidos. Pode ser usado para garantir que os arquivos que ainda estão sendo carregados não sejam listados várias vezes, fazendo com que esses arquivos tenham um sufixo e removam o sufixo quando o upload for concluído. Isso é altamente recomendado ao usar as estratégias de listagem “Rastreamento de entidades” ou “Rastreamento de carimbos de data/hora”. |
initial-listing-strategy |
Especifica como lidar com os arquivos existentes no compartilhamento SMB quando o processador for iniciado pela primeira vez (ou quando seu estado tiver sido limpo). |
initial-listing-timestamp |
O carimbo de data/hora a partir do qual os arquivos serão listados quando o processador for iniciado pela primeira vez (ou seu estado tiver sido limpo). O valor pode ser especificado como um carimbo de data/hora de época em milissegundos ou como um datetime UTC em um formato como 2025-02-01T00:00:00Z |
listing-strategy |
Especifica como determinar entidades novas/atualizadas. Veja as descrições de cada estratégia para obter detalhes. |
max-file-age |
Qualquer arquivo mais antigo que o valor fornecido será omitido. |
max-file-size |
Qualquer arquivo maior que o valor fornecido será omitido. |
min-file-age |
A idade mínima que um arquivo deve ter para ser listado; qualquer arquivo mais novo que esse período de tempo será ignorado. |
min-file-size |
Qualquer arquivo menor que o valor fornecido será omitido. |
path-filter |
Somente os arquivos cujos caminhos (até o diretório pai do arquivo) correspondem à expressão regular fornecida serão listados. |
record-writer |
Especifica o Record Writer a ser usado para criar a listagem. Se não for especificado, será criado um FlowFile para cada entidade listada. Se o Record Writer for especificado, todas as entidades serão gravadas em um único FlowFile em vez de adicionar Rastreamento de entidades atributos aos FlowFiles. |
smb-client-provider-service |
Especifica o provedor de cliente SMB a ser usado para criar conexões SMB. |
target-system-timestamp-precision |
Especifique a precisão do carimbo de data/hora no sistema de destino. Como esse processador usa o carimbo de data/hora das entidades para decidir quais devem ser listadas, é fundamental usar a precisão correta do carimbo de data/hora. |
Gerenciamento do estado¶
Escopos |
Descrição |
|---|---|
CLUSTER |
Depois de realizar uma listagem de arquivos, o estado da listagem anterior pode ser armazenado para listar arquivos continuamente sem duplicação. |
Relações¶
Nome |
Descrição |
|---|---|
success |
Todos os FlowFiles que são recebidos são encaminhados para a relação “success” |
Grava atributos¶
Nome |
Descrição |
|---|---|
filename |
O nome do arquivo que foi lido do sistema de arquivos. |
shortName |
O nome abreviado do arquivo que foi lido do sistema de arquivos. |
path |
O caminho é definido como o caminho relativo do diretório do arquivo no sistema de arquivos remoto em comparação com o diretório raiz do compartilhamento. Por exemplo, para um determinado local remoto smb://HOSTNAME:PORT/SHARE/DIRECTORY, e um arquivo estiver sendo listado em smb://HOSTNAME:PORT/SHARE/DIRECTORY/sub/folder/file, o atributo path será definido como “DIRECTORY/sub/folder”. |
serviceLocation |
O URL SMB da ação. |
lastModifiedTime |
O carimbo de data/hora de quando o conteúdo do arquivo foi alterado no sistema de arquivos como “yyyyy-MM-dd’T’HH:mm:ss”. |
creationTime |
O carimbo de data/hora de quando o arquivo foi criado no sistema de arquivos como “yyyyy-MM-dd’T’HH:mm:ss”. |
lastAccessTime |
O carimbo de data/hora de quando o arquivo foi acessado no sistema de arquivos como “yyyyy-MM-dd’T’HH:mm:ss”. |
changeTime |
O carimbo de data/hora de quando os atributos do arquivo foram alterados no sistema de arquivos como “yyyyy-MM-dd’T’HH:mm:ss”. |
size |
O tamanho do arquivo em bytes. |
allocationSize |
O número de bytes alocados para o arquivo no servidor. |