ListGCSBucket 2025.10.9.21

Pacote

org.apache.nifi | nifi-gcp-nar

Descrição

Recupera uma listagem de objetos de um bucket GCS. Para cada objeto listado, cria um FlowFile que representa o objeto para que ele possa ser buscado em conjunto com FetchGCSObject. Esse processador foi projetado para ser executado somente no nó primário em um cluster. Se o nó primário mudar, o novo nó primário continuará de onde o nó anterior parou sem duplicar todos os dados.

Tags

gcs, google, google cloud, list, storage

Requisito de entrada

FORBIDDEN

Oferece suporte a propriedades dinâmicas confidenciais

falso

Propriedades

Propriedade

Descrição

Entity Tracking Initial Listing Target

Especifique como a listagem inicial deve ser tratada. Usado pela estratégia de «Rastreamento de entidades».

Cache de estados de rastreamento de entidades

As entidades listadas são armazenadas no armazenamento em cache especificado para que este processador possa retomar a listagem após a reinicialização do NiFi ou em caso de alteração do nó primário. A estratégia de rastreamento de entidades de requer o rastreamento de informações de todas as entidades listadas dentro da última «janela de tempo de rastreamento». Para oferecer suporte a um grande número de entidades, a estratégia utiliza DistributedMapCache em vez de estado gerenciado. O formato da chave do cache é “ListedEntities::{processorId}(::{nodeId})”. Se ele rastrear por entidade listada de nó, a parte opcional “::{nodeId}” será adicionada para gerenciar o estado separadamente. Por exemplo, a chave de cache ampla do cluster = “ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”, por chave de cache de nó = “ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3” O conteúdo da chave de cache armazenado é uma string JSON compactada com Gzip. A chave do cache será excluída quando a configuração da listagem de destino for alterada. Usado pela estratégia de «Rastreamento de entidades».

Janela de tempo de rastreamento de entidades

Especifique por quanto tempo este processador deve rastrear entidades já listadas. A estratégia “Rastreamento de entidades” pode selecionar qualquer entidade cujo carimbo de data/hora esteja dentro da janela de tempo especificada. Por exemplo, se definido como “30 minutos”, qualquer entidade com carimbo de data/hora nos últimos 30 minutos será o alvo da listagem quando este processador for executado. Uma entidade listada é considerada “nova/atualizada” e um FlowFile é emitido se uma das seguintes condições for atendida: 1. não existe nas entidades já listadas, 2. tem carimbo de data/hora mais recente do que a entidade armazenada em cache, 3. tem tamanho diferente da entidade armazenada em cache. Se o carimbo de data/hora de uma entidade em cache ficar mais antigo do que o intervalo de tempo especificado, essa entidade será removida das entidades já listadas em cache. Usado pela estratégia “Rastreamento de entidades”.

Serviço de provedor de credenciais GCP

O Controller Service usado para obter as credenciais do Google Cloud Platform.

gcp-project-id

ID do projeto Google Cloud

gcp-retry-count

Quantas tentativas de repetição devem ser feitas antes de rotear para a relação de falha.

gcs-bucket

Bucket do objeto.

gcs-prefix

O prefixo usado para filtrar a lista de objetos. Na maioria dos casos, deve terminar com uma barra (“/”).

gcs-use-generations

Especifica se as gerações do GCS devem ser usadas, se for o caso. Se for falso, somente a versão mais recente de cada objeto será retornada.

listing-strategy

Especifica como determinar entidades novas/atualizadas. Veja as descrições de cada estratégia para obter detalhes.

proxy-configuration-service

Especifica o serviço de Controller Service de configuração de proxy para a realização de proxy de solicitações de rede.

record-writer

Especifica o Record Writer a ser usado para criar a listagem. Se não for especificado, será criado um FlowFile para cada entidade listada. Se o Record Writer for especificado, todas as entidades serão gravadas em um único FlowFile em vez de adicionar Rastreamento de entidades atributos aos FlowFiles.

storage-api-url

Substitui o URL de armazenamento padrão. A configuração de um URL de API de armazenamento alternativo também substitui o cabeçalho de host HTTP nas solicitações, conforme descrito na documentação do Google para conexões de serviço privadas.

Gerenciamento do estado

Escopos

Descrição

CLUSTER

Depois de fazer uma listagem de chaves, o carimbo de data/hora da chave mais recente é armazenado, juntamente com as chaves que compartilham esse mesmo carimbo de data/hora. Isso permite que o processador liste apenas as chaves adicionadas ou modificadas após essa data na próxima vez em que o processador for executado. O estado é armazenado em todo o cluster para que esse processador possa ser executado somente no nó primário e, se um novo nó primário for selecionado, o novo nó poderá continuar de onde o nó anterior parou, sem duplicar os dados.

Relações

Nome

Descrição

success

FlowFiles são encaminhados para essa relação após uma operação bem-sucedida do Google Cloud Storage.

Grava atributos

Nome

Descrição

filename

O nome do arquivo

gcs.bucket

Bucket do objeto.

gcs.key

Nome do objeto.

gcs.size

Tamanho do objeto.

gcs.cache.control

Controle de cache de dados do objeto.

gcs.component.count

O número de componentes que compõem o objeto.

gcs.content.disposition

A disposição do conteúdo de dados do objeto.

gcs.content.encoding

A codificação do conteúdo do objeto.

gcs.content.language

O idioma de conteúdo do objeto.

mime.type

O MIME/Content-Type do objeto

gcs.crc32c

A soma de verificação CRC32C dos dados do objeto, codificada em base64 em ordem big-endian.

gcs.create.time

O tempo de criação do objeto (milissegundos)

gcs.update.time

O tempo da última modificação do objeto (milissegundos)

gcs.encryption.algorithm

O algoritmo usado para criptografar o objeto.

gcs.encryption.sha256

O hash SHA256 da chave usada para criptografar o objeto

gcs.etag

A tag de entidade HTTP 1.1 do objeto.

gcs.generated.id

O serviço gerado para o objeto

gcs.generation

A geração de dados do objeto.

gcs.md5

O hash MD5 dos dados do objeto codificados em base64.

gcs.media.link

O link de download de mídia para o objeto.

gcs.metageneration

A metageração do objeto.

gcs.owner

O proprietário (uploader) do objeto.

gcs.owner.type

O tipo de entidade ACL do uploader do objeto.

gcs.acl.owner

Uma lista delimitada por vírgulas de entidades ACL que têm acesso de proprietário ao objeto. As entidades serão endereços de e-mail, domínios ou IDs de projetos.

gcs.acl.writer

Uma lista delimitada por vírgulas de entidades ACL que têm acesso de gravação ao objeto. As entidades serão endereços de e-mail, domínios ou IDs de projetos.

gcs.acl.reader

Uma lista delimitada por vírgulas de entidades ACL que têm acesso de leitura ao objeto. As entidades serão endereços de e-mail, domínios ou IDs de projetos.

gcs.uri

O URI do objeto como uma cadeia de caracteres.

Consulte também