ListGCSBucket 2025.10.2.19¶
Pacote¶
org.apache.nifi | nifi-gcp-nar
Descrição¶
Recupera uma listagem de objetos de um bucket GCS. Para cada objeto listado, cria um FlowFile que representa o objeto para que ele possa ser buscado em conjunto com FetchGCSObject. Esse processador foi projetado para ser executado somente no nó primário em um cluster. Se o nó primário mudar, o novo nó primário continuará de onde o nó anterior parou sem duplicar todos os dados.
Requisito de entrada¶
FORBIDDEN
Oferece suporte a propriedades dinâmicas confidenciais¶
falso
Propriedades¶
Propriedade |
Descrição |
|---|---|
Serviço de provedor de credenciais GCP |
O Controller Service usado para obter as credenciais do Google Cloud Platform. |
et-initial-listing-target |
Specify how initial listing should be handled. Used by “Tracking Entities’strategy. |
et-state-cache |
Listed entities are stored in the specified cache storage so that this processor can resume listing across NiFi restart or in case of primary node change. “Tracking Entities’strategy require tracking information of all listed entities within the last “Tracking Time Window”. To support large number of entities, the strategy uses DistributedMapCache instead of managed state. Cache key format is “ListedEntities::{processorId}(::{nodeId})”. If it tracks per node listed entities, then the optional “::{nodeId}” part is added to manage state separately. E.g. cluster wide cache key =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”, per node cache key =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3” The stored cache content is Gzipped JSON string. The cache key will be deleted when target listing configuration is changed. Used by “Tracking Entities’strategy. |
et-time-window |
Specify how long this processor should track already-listed entities. “Tracking Entities’strategy can pick any entity whose timestamp is inside the specified time window. For example, if set to “30 minutes”, any entity having timestamp in recent 30 minutes will be the listing target when this processor runs. A listed entity is considered “new/updated” and a FlowFile is emitted if one of following condition meets: 1. does not exist in the already-listed entities, 2. has newer timestamp than the cached entity, 3. has different size than the cached entity. If a cached entity “s timestamp becomes older than specified time window, that entity will be removed from the cached already-listed entities. Used by’Tracking Entities’strategy. |
gcp-project-id |
ID do projeto Google Cloud |
gcp-retry-count |
Quantas tentativas de repetição devem ser feitas antes de rotear para a relação de falha. |
gcs-bucket |
Bucket do objeto. |
gcs-prefix |
The prefix used to filter the object list. In most cases, it should end with a forward slash ( “/”). |
gcs-use-generations |
Specifies whether to use GCS Generations, if applicable. If false, only the latest version of each object will be returned. |
listing-strategy |
Especifica como determinar entidades novas/atualizadas. Veja as descrições de cada estratégia para obter detalhes. |
proxy-configuration-service |
Especifica o serviço de Controller Service de configuração de proxy para a realização de proxy de solicitações de rede. |
record-writer |
Especifica o Record Writer a ser usado para criar a listagem. Se não for especificado, será criado um FlowFile para cada entidade listada. Se o Record Writer for especificado, todas as entidades serão gravadas em um único FlowFile em vez de adicionar Rastreamento de entidades atributos aos FlowFiles. |
storage-api-url |
Substitui o URL de armazenamento padrão. A configuração de um URL de API de armazenamento alternativo também substitui o cabeçalho de host HTTP nas solicitações, conforme descrito na documentação do Google para conexões de serviço privadas. |
Gerenciamento do estado¶
Escopos |
Descrição |
|---|---|
CLUSTER |
Depois de fazer uma listagem de chaves, o carimbo de data/hora da chave mais recente é armazenado, juntamente com as chaves que compartilham esse mesmo carimbo de data/hora. Isso permite que o processador liste apenas as chaves adicionadas ou modificadas após essa data na próxima vez em que o processador for executado. O estado é armazenado em todo o cluster para que esse processador possa ser executado somente no nó primário e, se um novo nó primário for selecionado, o novo nó poderá continuar de onde o nó anterior parou, sem duplicar os dados. |
Relações¶
Nome |
Descrição |
|---|---|
success |
FlowFiles são encaminhados para essa relação após uma operação bem-sucedida do Google Cloud Storage. |
Grava atributos¶
Nome |
Descrição |
|---|---|
filename |
O nome do arquivo |
gcs.bucket |
Bucket do objeto. |
gcs.key |
Nome do objeto. |
gcs.size |
Tamanho do objeto. |
gcs.cache.control |
Controle de cache de dados do objeto. |
gcs.component.count |
O número de componentes que compõem o objeto. |
gcs.content.disposition |
A disposição do conteúdo de dados do objeto. |
gcs.content.encoding |
A codificação do conteúdo do objeto. |
gcs.content.language |
O idioma de conteúdo do objeto. |
mime.type |
O MIME/Content-Type do objeto |
gcs.crc32c |
A soma de verificação CRC32C dos dados do objeto, codificada em base64 em ordem big-endian. |
gcs.create.time |
O tempo de criação do objeto (milissegundos) |
gcs.update.time |
O tempo da última modificação do objeto (milissegundos) |
gcs.encryption.algorithm |
O algoritmo usado para criptografar o objeto. |
gcs.encryption.sha256 |
O hash SHA256 da chave usada para criptografar o objeto |
gcs.etag |
A tag de entidade HTTP 1.1 do objeto. |
gcs.generated.id |
O serviço gerado para o objeto |
gcs.generation |
A geração de dados do objeto. |
gcs.md5 |
O hash MD5 dos dados do objeto codificados em base64. |
gcs.media.link |
O link de download de mídia para o objeto. |
gcs.metageneration |
A metageração do objeto. |
gcs.owner |
O proprietário (uploader) do objeto. |
gcs.owner.type |
O tipo de entidade ACL do uploader do objeto. |
gcs.acl.owner |
Uma lista delimitada por vírgulas de entidades ACL que têm acesso de proprietário ao objeto. As entidades serão endereços de e-mail, domínios ou IDs de projetos. |
gcs.acl.writer |
Uma lista delimitada por vírgulas de entidades ACL que têm acesso de gravação ao objeto. As entidades serão endereços de e-mail, domínios ou IDs de projetos. |
gcs.acl.reader |
Uma lista delimitada por vírgulas de entidades ACL que têm acesso de leitura ao objeto. As entidades serão endereços de e-mail, domínios ou IDs de projetos. |
gcs.uri |
O URI do objeto como uma cadeia de caracteres. |