ListS3 2025.10.2.19¶
Pacote¶
org.apache.nifi | nifi-aws-nar
Descrição¶
Recupera uma listagem de objetos de um bucket S3. Para cada objeto listado, cria um FlowFile que representa o objeto para que ele possa ser buscado em conjunto com FetchS3Object. Esse processador foi projetado para ser executado somente no nó primário em um cluster. Se o nó primário mudar, o novo nó primário continuará de onde o nó anterior parou sem duplicar todos os dados.
Requisito de entrada¶
FORBIDDEN
Oferece suporte a propriedades dinâmicas confidenciais¶
falso
Propriedades¶
Propriedade |
Descrição |
|---|---|
Serviço de provedor de credenciais AWS |
O Controller Service que é usado para obter o provedor de credenciais AWS |
Bucket |
O bucket S3 para interagir |
Tempo limite de comunicação |
O tempo de espera para estabelecer uma conexão com o AWS ou receber dados do AWS antes de atingir o tempo limite. |
Custom Signer Class Name |
Fully qualified class name of the custom signer class. The signer must implement com.amazonaws.auth. Signer interface. |
Custom Signer Module Location |
Lista separada por vírgulas de caminhos para arquivos e/ou diretórios que contêm o arquivo JAR do assinador personalizado e suas dependências (se houver). |
Delimiter |
A cadeia de caracteres usada para delimitar os diretórios dentro do bucket. Consulte a documentação do AWS para obter informações sobre o uso correto desse campo. |
URL de substituição do ponto de extremidade |
URL do ponto de extremidade a ser usado em vez do padrão do AWS, incluindo esquema, host, porta e caminho. As bibliotecas AWS selecionam um URL de ponto de extremidade com base na região AWS, mas essa propriedade substitui o URL do ponto de extremidade selecionado, permitindo o uso com outros pontos de extremidade compatíveis com S3. |
List Type |
Especifica se você deve usar o ponto de extremidade original Listar objetos (List Objects) ou o mais recente Listar objetos versão 2 |
Tamanho do lote de listagem |
Se não estiver usando um Record Writer, essa propriedade determina quantos objetos S3 devem ser listados em um único lote. Quando esse número for atingido, os FlowFiles criados serão transferidos para fora do processador. Definir esse valor mais baixo pode resultar em menor latência, enviando os FlowFiles antes que a listagem completa tenha sido concluída. No entanto, isso pode reduzir significativamente o desempenho. Valores maiores podem exigir mais memória para armazenar todas as informações antes de enviar os FlowFiles. Essa propriedade é ignorada se você estiver usando um Record Writer, pois uma das principais vantagens do Record Writer é poder emitir a listagem inteira como um único FlowFile. |
Listing Strategy |
Especifica como determinar entidades novas/atualizadas. Veja as descrições de cada estratégia para obter detalhes. |
Idade máxima do objeto |
A idade máxima que um objeto S3 pode ter para ser considerado; qualquer objeto mais antigo do que esse período de tempo (de acordo com a data da última modificação) será ignorado |
Idade mínima do objeto |
A idade mínima que um objeto S3 deve ter para ser considerado; qualquer objeto mais novo do que esse período de tempo (de acordo com a data da última modificação) será ignorado |
Prefix |
O prefixo usado para filtrar a lista de objetos. Não comece com uma barra “/”. Na maioria dos casos, ele deve terminar com uma barra “/”. |
Record Writer |
Especifica o Record Writer a ser usado para criar a listagem. Se não for especificado, será criado um FlowFile para cada entidade listada. Se o Record Writer for especificado, todas as entidades serão gravadas em um único FlowFile em vez de adicionar Rastreamento de entidades atributos aos FlowFiles. |
Região |
A região AWS à qual você deve se conectar. |
Requester Pays |
If true, indicates that the requester consents to pay any charges associated with listing the S3 bucket. This sets the “x-amz-request-payer” header to “requester”. Note that this setting is not applicable when “Use Versions” is “true”. |
Serviço de contexto SSL |
Especifica um serviço de contexto SSL opcional que, se fornecido, será usado para criar conexões |
Substituição do signatário |
A biblioteca AWS S3 usa a Signature Version 4 por padrão, mas essa propriedade permite que você especifique o signatário da versão 2 para oferecer suporte a serviços compatíveis com S3 mais antigos ou até mesmo para conectar sua própria implementação de signatário personalizado. |
Use Versions |
Specifies whether to use S3 versions, if applicable. If false, only the latest version of each object will be returned. |
Write Object Tags |
Se definido como “verdadeiro”, as tags associadas ao objeto S3 serão gravadas como atributos FlowFile |
Write User Metadata |
Se definido como “verdadeiro”, os metadados definidos pelo usuário associados ao objeto S3 serão adicionados aos atributos/registros do FlowFile |
et-initial-listing-target |
Specify how initial listing should be handled. Used by “Tracking Entities’strategy. |
et-state-cache |
Listed entities are stored in the specified cache storage so that this processor can resume listing across NiFi restart or in case of primary node change. “Tracking Entities’strategy require tracking information of all listed entities within the last “Tracking Time Window”. To support large number of entities, the strategy uses DistributedMapCache instead of managed state. Cache key format is “ListedEntities::{processorId}(::{nodeId})”. If it tracks per node listed entities, then the optional “::{nodeId}” part is added to manage state separately. E.g. cluster wide cache key =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”, per node cache key =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3” The stored cache content is Gzipped JSON string. The cache key will be deleted when target listing configuration is changed. Used by “Tracking Entities’strategy. |
et-time-window |
Specify how long this processor should track already-listed entities. “Tracking Entities’strategy can pick any entity whose timestamp is inside the specified time window. For example, if set to “30 minutes”, any entity having timestamp in recent 30 minutes will be the listing target when this processor runs. A listed entity is considered “new/updated” and a FlowFile is emitted if one of following condition meets: 1. does not exist in the already-listed entities, 2. has newer timestamp than the cached entity, 3. has different size than the cached entity. If a cached entity “s timestamp becomes older than specified time window, that entity will be removed from the cached already-listed entities. Used by’Tracking Entities’strategy. |
proxy-configuration-service |
Especifica o serviço de Controller Service de configuração de proxy para a realização de proxy de solicitações de rede. |
Gerenciamento do estado¶
Escopos |
Descrição |
|---|---|
CLUSTER |
Depois de fazer uma listagem de chaves, o carimbo de data/hora da chave mais recente é armazenado, juntamente com as chaves que compartilham esse mesmo carimbo de data/hora. Isso permite que o processador liste apenas as chaves adicionadas ou modificadas após essa data na próxima vez em que o processador for executado. O estado é armazenado em todo o cluster para que esse processador possa ser executado somente no nó primário e, se um novo nó primário for selecionado, o novo nó poderá continuar de onde o nó anterior parou, sem duplicar os dados. |
Relações¶
Nome |
Descrição |
|---|---|
success |
FlowFiles são encaminhados para essa relação após terem sido processados com sucesso. |
Grava atributos¶
Nome |
Descrição |
|---|---|
s3.bucket |
O nome do bucket S3 |
s3.region |
A região do bucket S3 |
filename |
O nome do arquivo |
s3.etag |
O ETag que pode ser usado para verificar se o arquivo foi alterado |
s3.isLatest |
Um booliano que indica se essa é a versão mais recente do objeto |
s3.lastModified |
O tempo da última modificação em milissegundos desde a época, no horário UTC |
s3.length |
O tamanho do objeto em bytes |
s3.storeClass |
A classe de armazenamento do objeto |
s3.version |
A versão do objeto, se aplicável |
s3.tag.___ |
Se “Gravar tags de objeto” for definido como “verdadeiro”, as tags associadas ao objeto S3 que está sendo listado serão gravadas como parte dos atributos do FlowFile |
s3.user.metadata.___ |
Se “Gravar metadados de usuário” for definido como “verdadeiro”, os metadados definidos pelo usuário associados ao objeto S3 que está sendo listado serão gravados como parte dos atributos do FlowFile |