ListAzureDataLakeStorage 2025.10.2.19

Pacote

org.apache.nifi | nifi-azure-nar

Descrição

Lista o diretório em um sistema de arquivos do Azure Data Lake Storage Gen2

Tags

adlsgen2, azure, cloud, datalake, microsoft, storage

Requisito de entrada

FORBIDDEN

Oferece suporte a propriedades dinâmicas confidenciais

falso

Propriedades

Propriedade

Descrição

ADLS Credentials

Controller Service usado para obter as credenciais do Azure.

Directory Name

Nome do diretório de Armazenamento do Azure. O nome do diretório não pode conter um “/” inicial. O diretório raiz pode ser designado pelo valor de cadeia de caracteres vazio. No caso do processador PutAzureDataLakeStorage, o diretório será criado se ainda não existir.

File Filter

Somente os arquivos cujos nomes correspondem à expressão regular fornecida serão listados

Filesystem Name

Nome do sistema de arquivos de Armazenamento do Azure (também chamado de contêiner). Presume-se que ele já exista.

Include Temporary Files

Se deve incluir arquivos temporários ao listar o conteúdo dos caminhos de diretório configurados.

Idade máxima do arquivo

A idade máxima que um arquivo deve ter para ser extraído; qualquer arquivo mais antigo que esse período de tempo (de acordo com a data da última modificação) será ignorado

Tamanho máximo do arquivo

O tamanho máximo que um arquivo pode ter para ser extraído

Idade mínima do arquivo

A idade mínima que um arquivo deve ter para ser extraído; qualquer arquivo mais novo do que esse período de tempo (de acordo com a data da última modificação) será ignorado

Tamanho mínimo do arquivo

O tamanho mínimo que um arquivo deve ter para ser extraído

Path Filter

Quando “Percorrer subdiretórios” for verdadeiro, somente os subdiretórios cujos caminhos correspondem à expressão regular fornecida serão verificados

Recurse Subdirectories

Indica se os arquivos de subdiretórios do diretório devem ser listados

et-initial-listing-target

Specify how initial listing should be handled. Used by “Tracking Entities’strategy.

et-state-cache

Listed entities are stored in the specified cache storage so that this processor can resume listing across NiFi restart or in case of primary node change. “Tracking Entities’strategy require tracking information of all listed entities within the last “Tracking Time Window”. To support large number of entities, the strategy uses DistributedMapCache instead of managed state. Cache key format is “ListedEntities::{processorId}(::{nodeId})”. If it tracks per node listed entities, then the optional “::{nodeId}” part is added to manage state separately. E.g. cluster wide cache key =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”, per node cache key =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3” The stored cache content is Gzipped JSON string. The cache key will be deleted when target listing configuration is changed. Used by “Tracking Entities’strategy.

et-time-window

Specify how long this processor should track already-listed entities. “Tracking Entities’strategy can pick any entity whose timestamp is inside the specified time window. For example, if set to “30 minutes”, any entity having timestamp in recent 30 minutes will be the listing target when this processor runs. A listed entity is considered “new/updated” and a FlowFile is emitted if one of following condition meets: 1. does not exist in the already-listed entities, 2. has newer timestamp than the cached entity, 3. has different size than the cached entity. If a cached entity “s timestamp becomes older than specified time window, that entity will be removed from the cached already-listed entities. Used by’Tracking Entities’strategy.

listing-strategy

Especifica como determinar entidades novas/atualizadas. Veja as descrições de cada estratégia para obter detalhes.

proxy-configuration-service

Especifica o serviço de Controller Service de configuração de proxy para a realização de proxy de solicitações de rede. No caso de SOCKS, não é garantido que a versão de SOCKS selecionada será usada pelo processador.

record-writer

Especifica o Record Writer a ser usado para criar a listagem. Se não for especificado, será criado um FlowFile para cada entidade listada. Se o Record Writer for especificado, todas as entidades serão gravadas em um único FlowFile em vez de adicionar Rastreamento de entidades atributos aos FlowFiles.

Gerenciamento do estado

Escopos

Descrição

CLUSTER

Depois de fazer uma listagem de arquivos, o carimbo de data/hora do arquivo mais recente é armazenado. Isso permite que o processador liste apenas os arquivos que foram adicionados ou modificados após essa data na próxima vez em que o processador for executado. O estado é armazenado em todo o cluster para que esse processador possa ser executado somente no nó primário e, se um novo nó primário for selecionado, o novo nó poderá continuar de onde o nó anterior parou, sem duplicar os dados.

Relações

Nome

Descrição

success

Todos os FlowFiles que são recebidos são encaminhados para a relação “success”

Grava atributos

Nome

Descrição

azure.filesystem

O nome do sistema de arquivos Azure

azure.filePath

O caminho completo do arquivo Azure

azure.directory

O nome do diretório Azure

azure.filename

O nome do arquivo Azure

azure.length

O comprimento do arquivo Azure

azure.lastModified

A hora da última modificação do arquivo Azure

azure.etag

A ETag do arquivo Azure

Consulte também