ListAzureBlobStorage_v12 2025.10.9.21¶
Pacote¶
org.apache.nifi | nifi-azure-nar
Descrição¶
Lista os blobs em um contêiner do Armazenamento de Blobs do Azure. Os detalhes da listagem são anexados a um FlowFile vazio para uso com FetchAzureBlobStorage. Esse processador foi projetado para ser executado somente no nó primário em um cluster. Se o nó primário mudar, o novo nó primário continuará de onde o nó anterior parou sem duplicar todos os dados. O processador usa a biblioteca cliente do Armazenamento de Blobs do Azure v12.
Requisito de entrada¶
FORBIDDEN
Oferece suporte a propriedades dinâmicas confidenciais¶
falso
Propriedades¶
Propriedade |
Descrição |
|---|---|
Prefixo do nome do blob |
Prefixo de busca para listagem |
Nome do contêiner |
Nome do contêiner de armazenamento do Azure. No caso do processador PutAzureBlobStorage, o contêiner pode ser criado se ele não existir. |
Destino da listagem inicial de rastreamento de entidades |
Especifique como a listagem inicial deve ser tratada. Usado pela estratégia de «Rastreamento de entidades». |
Cache de estados de rastreamento de entidades |
As entidades listadas são armazenadas no armazenamento em cache especificado para que este processador possa retomar a listagem após a reinicialização do NiFi ou em caso de alteração do nó primário. A estratégia de rastreamento de entidades de requer o rastreamento de informações de todas as entidades listadas dentro da última «janela de tempo de rastreamento». Para oferecer suporte a um grande número de entidades, a estratégia utiliza DistributedMapCache em vez de estado gerenciado. O formato da chave do cache é «ListedEntities::{processorId}(::{nodeId})». Se as entidades listadas forem rastreadas por nó, a parte opcional «::{nodeId}» será adicionada para gerenciar o estado separadamente. Por exemplo, chave de cache ampla do cluster = «ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b», por chave do cache do nó = «ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3» O conteúdo de cache armazenado é uma string JSON compactada com Gzip. A chave do cache será excluída quando a configuração da listagem de destino for alterada. Usado pela estratégia de «Rastreamento de entidades». |
Janela de tempo de rastreamento de entidades |
Especifique por quanto tempo esse processador deve rastrear entidades já listadas. A estratégia de «Rastreamento de entidades» pode escolher qualquer entidade cujo carimbo de data/hora esteja dentro da janela de tempo especificada. Por exemplo, se definido como “30 minutos”, qualquer entidade que tenha um carimbo de data/hora nos últimos 30 minutos será o destino da listagem quando esse processador for executado. Uma entidade listada será considerada «nova/atualizada» e um FlowFile será emitido se uma das seguintes condições for atendida: 1. não existe nas entidades já listadas, 2. tem um carimbo de data/hora mais recente do que a entidade em cache, 3. tem tamanho diferente do que a entidade em cache. Se o carimbo de data/hora de uma entidade em cache se tornar mais antigo do que o período especificado, essa entidade será removida das entidades em cache já listadas. Usado pela estratégia «Rastreamento de entidades». |
Estratégia de listagem |
Especifica como determinar entidades novas/atualizadas. Veja as descrições de cada estratégia para obter detalhes. |
Idade máxima do arquivo |
A idade máxima que um arquivo deve ter para ser extraído; qualquer arquivo mais antigo que esse período de tempo (de acordo com a data da última modificação) será ignorado |
Tamanho máximo do arquivo |
O tamanho máximo que um arquivo pode ter para ser extraído |
Idade mínima do arquivo |
A idade mínima que um arquivo deve ter para ser extraído; qualquer arquivo mais novo do que esse período de tempo (de acordo com a data da última modificação) será ignorado |
Tamanho mínimo do arquivo |
O tamanho mínimo que um arquivo deve ter para ser extraído |
Record Writer |
Especifica o Record Writer a ser usado para criar a listagem. Se não for especificado, será criado um FlowFile para cada entidade listada. Se o Record Writer for especificado, todas as entidades serão gravadas em um único FlowFile em vez de adicionar Rastreamento de entidades atributos aos FlowFiles. |
Credenciais de armazenamento |
Controller Service usado para obter as credenciais do Armazenamento de Blobs do Azure. |
proxy-configuration-service |
Especifica o serviço de Controller Service de configuração de proxy para a realização de proxy de solicitações de rede. No caso de SOCKS, não é garantido que a versão de SOCKS selecionada será usada pelo processador. |
Gerenciamento do estado¶
Escopos |
Descrição |
|---|---|
CLUSTER |
Depois de realizar uma listagem de blobs, o carimbo de data/hora do blob mais recente será armazenado se a estratégia de listagem “Rastreamento de carimbos de data/hora” estiver em uso (por padrão). Isso permite que o processador liste apenas os blobs que foram adicionados ou modificados após essa data na próxima vez em que o processador for executado. O estado é armazenado em todo o cluster para que esse processador possa ser executado somente no nó primário e, se um novo nó primário for selecionado, o novo nó poderá continuar de onde o nó anterior parou, sem duplicar os dados. |
Relações¶
Nome |
Descrição |
|---|---|
success |
Todos os FlowFiles que são recebidos são encaminhados para a relação “success” |
Grava atributos¶
Nome |
Descrição |
|---|---|
azure.container |
O nome do contêiner do Armazenamento de Blobs do Azure |
azure.blobname |
O nome do blob no Armazenamento de Blobs do Azure |
azure.primaryUri |
Local primário do blob |
azure.etag |
ETag do blob |
azure.blobtype |
Tipo de blob (BlockBlob, PageBlob ou AppendBlob) |
mime.type |
Tipo MIME de conteúdo |
lang |
Código de idioma para o conteúdo |
azure.timestamp |
carimbo de data/hora do blob |
azure.length |
Comprimento do blob |