ListAzureDataLakeStorage 2025.5.31.15¶
Pacote¶
org.apache.nifi | nifi-azure-nar
Descrição¶
Lista o diretório em um sistema de arquivos do Azure Data Lake Storage Gen2
Requisito de entrada¶
FORBIDDEN
Oferece suporte a propriedades dinâmicas confidenciais¶
falso
Propriedades¶
Propriedade |
Descrição |
---|---|
Idade máxima do arquivo |
A idade máxima que um arquivo deve ter para ser extraído; qualquer arquivo mais antigo que esse período de tempo (de acordo com a data da última modificação) será ignorado |
Tamanho máximo do arquivo |
O tamanho máximo que um arquivo pode ter para ser extraído |
Idade mínima do arquivo |
A idade mínima que um arquivo deve ter para ser extraído; qualquer arquivo mais novo do que esse período de tempo (de acordo com a data da última modificação) será ignorado |
Tamanho mínimo do arquivo |
O tamanho mínimo que um arquivo deve ter para ser extraído |
adls-credentials-service |
Controller Service usado para obter as credenciais do Azure. |
directory-name |
Nome do diretório de Armazenamento do Azure. O nome do diretório não pode conter um “/” inicial. O diretório raiz pode ser designado pelo valor de cadeia de caracteres vazio. No caso do processador PutAzureDataLakeStorage, o diretório será criado se ainda não existir. |
et-initial-listing-target |
Especifique como a listagem inicial deve ser tratada. Usado pela estratégia “Rastreamento de entidades”. |
et-state-cache |
As entidades listadas são armazenadas no armazenamento em cache especificado, de modo que esse processador possa retomar a listagem por meio da reinicialização do NiFi ou em caso de alteração do nó primário. A estratégia “Rastreamento de entidades” exige informações de rastreamento de todas as entidades listadas na última “Janela de tempo de rastreamento”. Para oferecer suporte a um grande número de entidades, a estratégia usa DistributedMapCache em vez de estado gerenciado. O formato da chave de cache é “ListedEntities::{processorId}(::{nodeId})”. Se ele rastrear entidades listadas por nó, a parte opcional “::{nodeId}” será adicionada para gerenciar o estado separadamente. Por exemplo, a chave de cache de todo o cluster = “ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”, per node cache key = “ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3”. O conteúdo do cache armazenado é a cadeia de caracteres JSON compactada em Gzip. A chave de cache será excluída quando a configuração da listagem de destino for alterada. Usado pela estratégia “Rastreamento de entidades”. |
et-time-window |
Especifique por quanto tempo esse processador deve rastrear as entidades já listadas. A estratégia “Rastreamento de entidades” pode selecionar qualquer entidade cujo carimbo de data/hora esteja dentro da janela de tempo especificada. Por exemplo, se for definido como “30 minutes”, qualquer entidade com carimbo de data/hora nos últimos 30 minutos será o destino da listagem quando esse processador for executado. Uma entidade listada é considerada “nova/atualizada” e um FlowFile é emitido se uma das seguintes condições for atendida: 1. não existir nas entidades já listadas, 2. tiver um carimbo de data/hora mais recente do que a entidade em cache, e 3. tiver um tamanho diferente da entidade em cache. Se o carimbo de data/hora de uma entidade em cache for mais antigo do que a janela de tempo especificada, essa entidade será removida das entidades já listadas em cache. Usado pela estratégia “Rastreamento de entidades”. |
file-filter |
Somente os arquivos cujos nomes correspondem à expressão regular fornecida serão listados |
filesystem-name |
Nome do sistema de arquivos de Armazenamento do Azure (também chamado de contêiner). Presume-se que ele já exista. |
include-temporary-files |
Se deve incluir arquivos temporários ao listar o conteúdo dos caminhos de diretório configurados. |
listing-strategy |
Especifica como determinar entidades novas/atualizadas. Veja as descrições de cada estratégia para obter detalhes. |
path-filter |
Quando “Percorrer subdiretórios” for verdadeiro, somente os subdiretórios cujos caminhos correspondem à expressão regular fornecida serão verificados |
proxy-configuration-service |
Especifica o serviço de Controller Service de configuração de proxy para a realização de proxy de solicitações de rede. No caso de SOCKS, não é garantido que a versão de SOCKS selecionada será usada pelo processador. |
record-writer |
Especifica o Record Writer a ser usado para criar a listagem. Se não for especificado, será criado um FlowFile para cada entidade listada. Se o Record Writer for especificado, todas as entidades serão gravadas em um único FlowFile em vez de adicionar Rastreamento de entidades atributos aos FlowFiles. |
recurse-subdirectories |
Indica se os arquivos de subdiretórios do diretório devem ser listados |
Gerenciamento do estado¶
Escopos |
Descrição |
---|---|
CLUSTER |
Depois de fazer uma listagem de arquivos, o carimbo de data/hora do arquivo mais recente é armazenado. Isso permite que o processador liste apenas os arquivos que foram adicionados ou modificados após essa data na próxima vez em que o processador for executado. O estado é armazenado em todo o cluster para que esse processador possa ser executado somente no nó primário e, se um novo nó primário for selecionado, o novo nó poderá continuar de onde o nó anterior parou, sem duplicar os dados. |
Relações¶
Nome |
Descrição |
---|---|
success |
Todos os FlowFiles que são recebidos são encaminhados para a relação “success” |
Grava atributos¶
Nome |
Descrição |
---|---|
azure.filesystem |
O nome do sistema de arquivos Azure |
azure.filePath |
O caminho completo do arquivo Azure |
azure.directory |
O nome do diretório Azure |
azure.filename |
O nome do arquivo Azure |
azure.length |
O comprimento do arquivo Azure |
azure.lastModified |
A hora da última modificação do arquivo Azure |
azure.etag |
A ETag do arquivo Azure |