ListGCSBucket 2025.5.31.15

Pacote

org.apache.nifi | nifi-gcp-nar

Descrição

Recupera uma listagem de objetos de um bucket GCS. Para cada objeto listado, cria um FlowFile que representa o objeto para que ele possa ser buscado em conjunto com FetchGCSObject. Esse processador foi projetado para ser executado somente no nó primário em um cluster. Se o nó primário mudar, o novo nó primário continuará de onde o nó anterior parou sem duplicar todos os dados.

Tags

gcs, google, google cloud, list, storage

Requisito de entrada

FORBIDDEN

Oferece suporte a propriedades dinâmicas confidenciais

falso

Propriedades

Propriedade

Descrição

Serviço de provedor de credenciais GCP

O Controller Service usado para obter as credenciais do Google Cloud Platform.

et-initial-listing-target

Especifique como a listagem inicial deve ser tratada. Usado pela estratégia “Rastreamento de entidades”.

et-state-cache

As entidades listadas são armazenadas no armazenamento em cache especificado, de modo que esse processador possa retomar a listagem por meio da reinicialização do NiFi ou em caso de alteração do nó primário. A estratégia “Rastreamento de entidades” exige informações de rastreamento de todas as entidades listadas na última “Janela de tempo de rastreamento”. Para oferecer suporte a um grande número de entidades, a estratégia usa DistributedMapCache em vez de estado gerenciado. O formato da chave de cache é “ListedEntities::{processorId}(::{nodeId})”. Se ele rastrear entidades listadas por nó, a parte opcional “::{nodeId}” será adicionada para gerenciar o estado separadamente. Por exemplo, a chave de cache de todo o cluster = “ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”, per node cache key = “ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3”. O conteúdo do cache armazenado é a cadeia de caracteres JSON compactada em Gzip. A chave de cache será excluída quando a configuração da listagem de destino for alterada. Usado pela estratégia “Rastreamento de entidades”.

et-time-window

Especifique por quanto tempo esse processador deve rastrear as entidades já listadas. A estratégia “Rastreamento de entidades” pode selecionar qualquer entidade cujo carimbo de data/hora esteja dentro da janela de tempo especificada. Por exemplo, se for definido como “30 minutes”, qualquer entidade com carimbo de data/hora nos últimos 30 minutos será o destino da listagem quando esse processador for executado. Uma entidade listada é considerada “nova/atualizada” e um FlowFile é emitido se uma das seguintes condições for atendida: 1. não existir nas entidades já listadas, 2. tiver um carimbo de data/hora mais recente do que a entidade em cache, e 3. tiver um tamanho diferente da entidade em cache. Se o carimbo de data/hora de uma entidade em cache for mais antigo do que a janela de tempo especificada, essa entidade será removida das entidades já listadas em cache. Usado pela estratégia “Rastreamento de entidades”.

gcp-project-id

ID do projeto Google Cloud

gcp-retry-count

Quantas tentativas de repetição devem ser feitas antes de rotear para a relação de falha.

gcs-bucket

Bucket do objeto.

gcs-prefix

O prefixo usado para filtrar a lista de objetos. Na maioria dos casos, ele deve terminar com uma barra (“/”).

gcs-use-generations

Especifica se você deve usar as gerações de GCS, se aplicável. Se falso, somente a versão mais recente de cada objeto será retornada.

listing-strategy

Especifica como determinar entidades novas/atualizadas. Veja as descrições de cada estratégia para obter detalhes.

proxy-configuration-service

Especifica o serviço de Controller Service de configuração de proxy para a realização de proxy de solicitações de rede.

record-writer

Especifica o Record Writer a ser usado para criar a listagem. Se não for especificado, será criado um FlowFile para cada entidade listada. Se o Record Writer for especificado, todas as entidades serão gravadas em um único FlowFile em vez de adicionar Rastreamento de entidades atributos aos FlowFiles.

storage-api-url

Substitui o URL de armazenamento padrão. A configuração de um URL de API de armazenamento alternativo também substitui o cabeçalho de host HTTP nas solicitações, conforme descrito na documentação do Google para conexões de serviço privadas.

Gerenciamento do estado

Escopos

Descrição

CLUSTER

Depois de fazer uma listagem de chaves, o carimbo de data/hora da chave mais recente é armazenado, juntamente com as chaves que compartilham esse mesmo carimbo de data/hora. Isso permite que o processador liste apenas as chaves adicionadas ou modificadas após essa data na próxima vez em que o processador for executado. O estado é armazenado em todo o cluster para que esse processador possa ser executado somente no nó primário e, se um novo nó primário for selecionado, o novo nó poderá continuar de onde o nó anterior parou, sem duplicar os dados.

Relações

Nome

Descrição

success

FlowFiles são encaminhados para essa relação após uma operação bem-sucedida do Google Cloud Storage.

Grava atributos

Nome

Descrição

filename

O nome do arquivo

gcs.bucket

Bucket do objeto.

gcs.key

Nome do objeto.

gcs.size

Tamanho do objeto.

gcs.cache.control

Controle de cache de dados do objeto.

gcs.component.count

O número de componentes que compõem o objeto.

gcs.content.disposition

A disposição do conteúdo de dados do objeto.

gcs.content.encoding

A codificação do conteúdo do objeto.

gcs.content.language

O idioma de conteúdo do objeto.

mime.type

O MIME/Content-Type do objeto

gcs.crc32c

A soma de verificação CRC32C dos dados do objeto, codificada em base64 em ordem big-endian.

gcs.create.time

O tempo de criação do objeto (milissegundos)

gcs.update.time

O tempo da última modificação do objeto (milissegundos)

gcs.encryption.algorithm

O algoritmo usado para criptografar o objeto.

gcs.encryption.sha256

O hash SHA256 da chave usada para criptografar o objeto

gcs.etag

A tag de entidade HTTP 1.1 do objeto.

gcs.generated.id

O serviço gerado para o objeto

gcs.generation

A geração de dados do objeto.

gcs.md5

O hash MD5 dos dados do objeto codificados em base64.

gcs.media.link

O link de download de mídia para o objeto.

gcs.metageneration

A metageração do objeto.

gcs.owner

O proprietário (uploader) do objeto.

gcs.owner.type

O tipo de entidade ACL do uploader do objeto.

gcs.acl.owner

Uma lista delimitada por vírgulas de entidades ACL que têm acesso de proprietário ao objeto. As entidades serão endereços de e-mail, domínios ou IDs de projetos.

gcs.acl.writer

Uma lista delimitada por vírgulas de entidades ACL que têm acesso de gravação ao objeto. As entidades serão endereços de e-mail, domínios ou IDs de projetos.

gcs.acl.reader

Uma lista delimitada por vírgulas de entidades ACL que têm acesso de leitura ao objeto. As entidades serão endereços de e-mail, domínios ou IDs de projetos.

gcs.uri

O URI do objeto como uma cadeia de caracteres.

Consulte também