ListGoogleDrive 2025.10.2.19¶
Pacote¶
org.apache.nifi | nifi-gcp-nar
Descrição¶
Executa uma listagem de arquivos concretos (os atalhos são ignorados) em uma pasta do Google Drive. Se a propriedade “Record Writer” for definida, será criada um único FlowFile de saída e cada arquivo da listagem será gravado como um único registro no arquivo de saída. Caso contrário, para cada arquivo da listagem, é criado um FlowFile individual, com os metadados sendo gravados como atributos do FlowFile. Esse processador foi projetado para ser executado somente no nó primário em um cluster. Se o nó primário mudar, o novo nó primário continuará de onde o nó anterior parou sem duplicar todos os dados. Consulte Detalhes adicionais para configurar o acesso ao Google Drive.
Requisito de entrada¶
FORBIDDEN
Oferece suporte a propriedades dinâmicas confidenciais¶
falso
Propriedades¶
Propriedade |
Descrição |
|---|---|
connect-timeout |
Tempo máximo de espera para conexão com o serviço do Google Drive. |
et-initial-listing-target |
Specify how initial listing should be handled. Used by “Tracking Entities’strategy. |
et-state-cache |
Listed entities are stored in the specified cache storage so that this processor can resume listing across NiFi restart or in case of primary node change. “Tracking Entities’strategy require tracking information of all listed entities within the last “Tracking Time Window”. To support large number of entities, the strategy uses DistributedMapCache instead of managed state. Cache key format is “ListedEntities::{processorId}(::{nodeId})”. If it tracks per node listed entities, then the optional “::{nodeId}” part is added to manage state separately. E.g. cluster wide cache key =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”, per node cache key =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3” The stored cache content is Gzipped JSON string. The cache key will be deleted when target listing configuration is changed. Used by “Tracking Entities’strategy. |
et-time-window |
Specify how long this processor should track already-listed entities. “Tracking Entities’strategy can pick any entity whose timestamp is inside the specified time window. For example, if set to “30 minutes”, any entity having timestamp in recent 30 minutes will be the listing target when this processor runs. A listed entity is considered “new/updated” and a FlowFile is emitted if one of following condition meets: 1. does not exist in the already-listed entities, 2. has newer timestamp than the cached entity, 3. has different size than the cached entity. If a cached entity “s timestamp becomes older than specified time window, that entity will be removed from the cached already-listed entities. Used by’Tracking Entities’strategy. |
folder-id |
O ID da pasta da qual a lista de arquivos será extraída. Consulte Detalhes adicionais para configurar o acesso ao Google Drive e obter o ID de pasta. WARNING: o acesso não autorizado à pasta é tratado como se a pasta estivesse vazia. Isso faz com que o processador não crie FlowFiles. Nenhuma mensagem de erro adicional é fornecida. |
gcp-credentials-provider-service |
O Controller Service usado para obter as credenciais do Google Cloud Platform. |
listing-strategy |
Especifica como determinar entidades novas/atualizadas. Veja as descrições de cada estratégia para obter detalhes. |
min-age |
A idade mínima que um arquivo deve ter para ser considerado; qualquer arquivo mais novo que isso será ignorado. |
proxy-configuration-service |
Especifica o serviço de Controller Service de configuração de proxy para a realização de proxy de solicitações de rede. |
read-timeout |
Tempo máximo de espera para resposta do serviço Google Drive. |
record-writer |
Especifica o Record Writer a ser usado para criar a listagem. Se não for especificado, será criado um FlowFile para cada entidade listada. Se o Record Writer for especificado, todas as entidades serão gravadas em um único FlowFile em vez de adicionar Rastreamento de entidades atributos aos FlowFiles. |
recursive-search |
Quando “verdadeiro”, incluirá a lista de arquivos de subpastas concretas (ignora atalhos). Caso contrário, retornará apenas arquivos que tenham o ID de pasta diretamente definido como pai. WARNING: a listagem pode falhar se houver muitas subpastas (mais de 500). |
Gerenciamento do estado¶
Escopos |
Descrição |
|---|---|
CLUSTER |
O processador armazena os dados necessários para poder rastrear quais arquivos já foram listados. O que exatamente precisa ser armazenado depende da “Estratégia de listagem”. O estado é armazenado em todo o cluster para que esse processador possa ser executado somente no nó primário e, se um novo nó primário for selecionado, o novo nó poderá continuar de onde o nó anterior parou, sem duplicar os dados. |
Relações¶
Nome |
Descrição |
|---|---|
success |
Todos os FlowFiles que são recebidos são encaminhados para a relação “success” |
Grava atributos¶
Nome |
Descrição |
|---|---|
drive.id |
O ID do arquivo |
filename |
O nome do arquivo |
mime.type |
O tipo MIME do arquivo |
drive.size |
O tamanho do arquivo. Defina como 0 quando o tamanho do arquivo não estiver disponível (por exemplo, arquivos armazenados externamente). |
drive.size.available |
Indica se o tamanho do arquivo é conhecido/disponível |
drive.timestamp |
A hora da última modificação ou a hora de criação (o que for maior) do arquivo. A razão para isso é que a data original de modificação de um arquivo é preservada quando ele é carregado no Google Drive. “Tempo de criação” indica o momento em que o upload ocorre. No entanto, os arquivos carregados ainda podem ser modificados posteriormente. |
drive.created.time |
A hora de criação do arquivo |
drive.modified.time |
A hora da última modificação do arquivo |
drive.path |
O caminho do diretório do arquivo a partir do diretório base. O caminho contém os nomes das pastas no formato codificado de URL porque o Google Drive permite caracteres especiais em nomes de arquivos, incluindo “/” (barra) e “” (barra invertida). Os nomes de pastas codificados em URL são separados por “/” no caminho. |
drive.owner |
O proprietário do arquivo |
drive.last.modifying.user |
O último usuário que modificou o arquivo |
drive.web.view.link |
Link de exibição da Web para o arquivo |
drive.web.content.link |
Link de conteúdo da Web para o arquivo |
drive.parent.folder.id |
O ID da pasta pai do arquivo |
drive.parent.folder.name |
O nome da pasta pai do arquivo |
drive.listed.folder.id |
O ID da pasta base que foi listada |
drive.listed.folder.name |
O nome da pasta base que foi listada |
drive.shared.drive.id |
O ID da unidade compartilhada (se o arquivo estiver localizado em uma unidade compartilhada) |
drive.shared.drive.name |
O nome da unidade compartilhada (se o arquivo estiver localizado em uma unidade compartilhada) |