ListAzureBlobStorage_v12 2025.10.9.21

Pacote

org.apache.nifi | nifi-azure-nar

Descrição

Lista os blobs em um contêiner do Armazenamento de Blobs do Azure. Os detalhes da listagem são anexados a um FlowFile vazio para uso com FetchAzureBlobStorage. Esse processador foi projetado para ser executado somente no nó primário em um cluster. Se o nó primário mudar, o novo nó primário continuará de onde o nó anterior parou sem duplicar todos os dados. O processador usa a biblioteca cliente do Armazenamento de Blobs do Azure v12.

Tags

azure, blob, cloud, microsoft, storage

Requisito de entrada

FORBIDDEN

Oferece suporte a propriedades dinâmicas confidenciais

falso

Propriedades

Propriedade

Descrição

Prefixo do nome do blob

Prefixo de busca para listagem

Nome do contêiner

Nome do contêiner de armazenamento do Azure. No caso do processador PutAzureBlobStorage, o contêiner pode ser criado se ele não existir.

Destino da listagem inicial de rastreamento de entidades

Especifique como a listagem inicial deve ser tratada. Usado pela estratégia de «Rastreamento de entidades».

Cache de estados de rastreamento de entidades

As entidades listadas são armazenadas no armazenamento em cache especificado para que este processador possa retomar a listagem após a reinicialização do NiFi ou em caso de alteração do nó primário. A estratégia de rastreamento de entidades de requer o rastreamento de informações de todas as entidades listadas dentro da última «janela de tempo de rastreamento». Para oferecer suporte a um grande número de entidades, a estratégia utiliza DistributedMapCache em vez de estado gerenciado. O formato da chave do cache é «ListedEntities::{processorId}(::{nodeId})». Se as entidades listadas forem rastreadas por nó, a parte opcional «::{nodeId}» será adicionada para gerenciar o estado separadamente. Por exemplo, chave de cache ampla do cluster = «ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b», por chave do cache do nó = «ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3» O conteúdo de cache armazenado é uma string JSON compactada com Gzip. A chave do cache será excluída quando a configuração da listagem de destino for alterada. Usado pela estratégia de «Rastreamento de entidades».

Janela de tempo de rastreamento de entidades

Especifique por quanto tempo esse processador deve rastrear entidades já listadas. A estratégia de «Rastreamento de entidades» pode escolher qualquer entidade cujo carimbo de data/hora esteja dentro da janela de tempo especificada. Por exemplo, se definido como “30 minutos”, qualquer entidade que tenha um carimbo de data/hora nos últimos 30 minutos será o destino da listagem quando esse processador for executado. Uma entidade listada será considerada «nova/atualizada» e um FlowFile será emitido se uma das seguintes condições for atendida: 1. não existe nas entidades já listadas, 2. tem um carimbo de data/hora mais recente do que a entidade em cache, 3. tem tamanho diferente do que a entidade em cache. Se o carimbo de data/hora de uma entidade em cache se tornar mais antigo do que o período especificado, essa entidade será removida das entidades em cache já listadas. Usado pela estratégia «Rastreamento de entidades».

Estratégia de listagem

Especifica como determinar entidades novas/atualizadas. Veja as descrições de cada estratégia para obter detalhes.

Idade máxima do arquivo

A idade máxima que um arquivo deve ter para ser extraído; qualquer arquivo mais antigo que esse período de tempo (de acordo com a data da última modificação) será ignorado

Tamanho máximo do arquivo

O tamanho máximo que um arquivo pode ter para ser extraído

Idade mínima do arquivo

A idade mínima que um arquivo deve ter para ser extraído; qualquer arquivo mais novo do que esse período de tempo (de acordo com a data da última modificação) será ignorado

Tamanho mínimo do arquivo

O tamanho mínimo que um arquivo deve ter para ser extraído

Record Writer

Especifica o Record Writer a ser usado para criar a listagem. Se não for especificado, será criado um FlowFile para cada entidade listada. Se o Record Writer for especificado, todas as entidades serão gravadas em um único FlowFile em vez de adicionar Rastreamento de entidades atributos aos FlowFiles.

Credenciais de armazenamento

Controller Service usado para obter as credenciais do Armazenamento de Blobs do Azure.

proxy-configuration-service

Especifica o serviço de Controller Service de configuração de proxy para a realização de proxy de solicitações de rede. No caso de SOCKS, não é garantido que a versão de SOCKS selecionada será usada pelo processador.

Gerenciamento do estado

Escopos

Descrição

CLUSTER

Depois de realizar uma listagem de blobs, o carimbo de data/hora do blob mais recente será armazenado se a estratégia de listagem “Rastreamento de carimbos de data/hora” estiver em uso (por padrão). Isso permite que o processador liste apenas os blobs que foram adicionados ou modificados após essa data na próxima vez em que o processador for executado. O estado é armazenado em todo o cluster para que esse processador possa ser executado somente no nó primário e, se um novo nó primário for selecionado, o novo nó poderá continuar de onde o nó anterior parou, sem duplicar os dados.

Relações

Nome

Descrição

success

Todos os FlowFiles que são recebidos são encaminhados para a relação “success”

Grava atributos

Nome

Descrição

azure.container

O nome do contêiner do Armazenamento de Blobs do Azure

azure.blobname

O nome do blob no Armazenamento de Blobs do Azure

azure.primaryUri

Local primário do blob

azure.etag

ETag do blob

azure.blobtype

Tipo de blob (BlockBlob, PageBlob ou AppendBlob)

mime.type

Tipo MIME de conteúdo

lang

Código de idioma para o conteúdo

azure.timestamp

carimbo de data/hora do blob

azure.length

Comprimento do blob

Consulte também