ListGCSBucket 2025.10.2.19¶
Pacote¶
org.apache.nifi | nifi-gcp-nar
Descrição¶
Recupera uma listagem de objetos de um bucket GCS. Para cada objeto listado, cria um FlowFile que representa o objeto para que ele possa ser buscado em conjunto com FetchGCSObject. Esse processador foi projetado para ser executado somente no nó primário em um cluster. Se o nó primário mudar, o novo nó primário continuará de onde o nó anterior parou sem duplicar todos os dados.
Requisito de entrada¶
FORBIDDEN
Oferece suporte a propriedades dinâmicas confidenciais¶
falso
Propriedades¶
Propriedade |
Descrição |
|---|---|
Serviço de provedor de credenciais GCP |
O Controller Service usado para obter as credenciais do Google Cloud Platform. |
et-initial-listing-target |
Especifique como a listagem inicial deve ser tratada. Usado pela estratégia de «Rastreamento de entidades». |
et-state-cache |
As entidades listadas são armazenadas no armazenamento em cache especificado para que este processador possa retomar a listagem após a reinicialização do NiFi ou em caso de alteração do nó primário. A estratégia de rastreamento de entidades de requer o rastreamento de informações de todas as entidades listadas dentro da última «janela de tempo de rastreamento». Para oferecer suporte a um grande número de entidades, a estratégia utiliza DistributedMapCache em vez de estado gerenciado. O formato da chave do cache é “ListedEntities::{processorId}(::{nodeId})”. Se ele rastrear por entidade listada de nó, a parte opcional “::{nodeId}” será adicionada para gerenciar o estado separadamente. Por exemplo, a chave de cache ampla do cluster = “ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”, por chave de cache de nó = “ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3” O conteúdo da chave de cache armazenado é uma string JSON compactada com Gzip. A chave do cache será excluída quando a configuração da listagem de destino for alterada. Usado pela estratégia de «Rastreamento de entidades». |
et-time-window |
Especifique por quanto tempo este processador deve rastrear entidades já listadas. A estratégia “Rastreamento de entidades” pode selecionar qualquer entidade cujo carimbo de data/hora esteja dentro da janela de tempo especificada. Por exemplo, se definido como “30 minutos”, qualquer entidade com carimbo de data/hora nos últimos 30 minutos será o alvo da listagem quando este processador for executado. Uma entidade listada é considerada “nova/atualizada” e um FlowFile é emitido se uma das seguintes condições for atendida: 1. não existe nas entidades já listadas, 2. tem carimbo de data/hora mais recente do que a entidade armazenada em cache, 3. tem tamanho diferente da entidade armazenada em cache. Se o carimbo de data/hora de uma entidade em cache ficar mais antigo do que o intervalo de tempo especificado, essa entidade será removida das entidades já listadas em cache. Usado pela estratégia “Rastreamento de entidades”. |
gcp-project-id |
ID do projeto Google Cloud |
gcp-retry-count |
Quantas tentativas de repetição devem ser feitas antes de rotear para a relação de falha. |
gcs-bucket |
Bucket do objeto. |
gcs-prefix |
O prefixo usado para filtrar a lista de objetos. Na maioria dos casos, deve terminar com uma barra (“/”). |
gcs-use-generations |
Especifica se as gerações do GCS devem ser usadas, se for o caso. Se for falso, somente a versão mais recente de cada objeto será retornada. |
listing-strategy |
Especifica como determinar entidades novas/atualizadas. Veja as descrições de cada estratégia para obter detalhes. |
proxy-configuration-service |
Especifica o serviço de Controller Service de configuração de proxy para a realização de proxy de solicitações de rede. |
record-writer |
Especifica o Record Writer a ser usado para criar a listagem. Se não for especificado, será criado um FlowFile para cada entidade listada. Se o Record Writer for especificado, todas as entidades serão gravadas em um único FlowFile em vez de adicionar Rastreamento de entidades atributos aos FlowFiles. |
storage-api-url |
Substitui o URL de armazenamento padrão. A configuração de um URL de API de armazenamento alternativo também substitui o cabeçalho de host HTTP nas solicitações, conforme descrito na documentação do Google para conexões de serviço privadas. |
Gerenciamento do estado¶
Escopos |
Descrição |
|---|---|
CLUSTER |
Depois de fazer uma listagem de chaves, o carimbo de data/hora da chave mais recente é armazenado, juntamente com as chaves que compartilham esse mesmo carimbo de data/hora. Isso permite que o processador liste apenas as chaves adicionadas ou modificadas após essa data na próxima vez em que o processador for executado. O estado é armazenado em todo o cluster para que esse processador possa ser executado somente no nó primário e, se um novo nó primário for selecionado, o novo nó poderá continuar de onde o nó anterior parou, sem duplicar os dados. |
Relações¶
Nome |
Descrição |
|---|---|
success |
FlowFiles são encaminhados para essa relação após uma operação bem-sucedida do Google Cloud Storage. |
Grava atributos¶
Nome |
Descrição |
|---|---|
filename |
O nome do arquivo |
gcs.bucket |
Bucket do objeto. |
gcs.key |
Nome do objeto. |
gcs.size |
Tamanho do objeto. |
gcs.cache.control |
Controle de cache de dados do objeto. |
gcs.component.count |
O número de componentes que compõem o objeto. |
gcs.content.disposition |
A disposição do conteúdo de dados do objeto. |
gcs.content.encoding |
A codificação do conteúdo do objeto. |
gcs.content.language |
O idioma de conteúdo do objeto. |
mime.type |
O MIME/Content-Type do objeto |
gcs.crc32c |
A soma de verificação CRC32C dos dados do objeto, codificada em base64 em ordem big-endian. |
gcs.create.time |
O tempo de criação do objeto (milissegundos) |
gcs.update.time |
O tempo da última modificação do objeto (milissegundos) |
gcs.encryption.algorithm |
O algoritmo usado para criptografar o objeto. |
gcs.encryption.sha256 |
O hash SHA256 da chave usada para criptografar o objeto |
gcs.etag |
A tag de entidade HTTP 1.1 do objeto. |
gcs.generated.id |
O serviço gerado para o objeto |
gcs.generation |
A geração de dados do objeto. |
gcs.md5 |
O hash MD5 dos dados do objeto codificados em base64. |
gcs.media.link |
O link de download de mídia para o objeto. |
gcs.metageneration |
A metageração do objeto. |
gcs.owner |
O proprietário (uploader) do objeto. |
gcs.owner.type |
O tipo de entidade ACL do uploader do objeto. |
gcs.acl.owner |
Uma lista delimitada por vírgulas de entidades ACL que têm acesso de proprietário ao objeto. As entidades serão endereços de e-mail, domínios ou IDs de projetos. |
gcs.acl.writer |
Uma lista delimitada por vírgulas de entidades ACL que têm acesso de gravação ao objeto. As entidades serão endereços de e-mail, domínios ou IDs de projetos. |
gcs.acl.reader |
Uma lista delimitada por vírgulas de entidades ACL que têm acesso de leitura ao objeto. As entidades serão endereços de e-mail, domínios ou IDs de projetos. |
gcs.uri |
O URI do objeto como uma cadeia de caracteres. |