ListGoogleDrive 2025.10.9.21

Pacote

org.apache.nifi | nifi-gcp-nar

Descrição

Executa uma listagem de arquivos concretos (os atalhos são ignorados) em uma pasta do Google Drive. Se a propriedade “Record Writer” for definida, será criada um único FlowFile de saída e cada arquivo da listagem será gravado como um único registro no arquivo de saída. Caso contrário, para cada arquivo da listagem, é criado um FlowFile individual, com os metadados sendo gravados como atributos do FlowFile. Esse processador foi projetado para ser executado somente no nó primário em um cluster. Se o nó primário mudar, o novo nó primário continuará de onde o nó anterior parou sem duplicar todos os dados. Consulte Detalhes adicionais para configurar o acesso ao Google Drive.

Tags

drive, google, storage

Requisito de entrada

FORBIDDEN

Oferece suporte a propriedades dinâmicas confidenciais

falso

Propriedades

Propriedade

Descrição

Entity Tracking Initial Listing Target

Especifique como a listagem inicial deve ser tratada. Usado pela estratégia de «Rastreamento de entidades».

Cache de estados de rastreamento de entidades

As entidades listadas são armazenadas no armazenamento em cache especificado para que este processador possa retomar a listagem após a reinicialização do NiFi ou em caso de alteração do nó primário. A estratégia de rastreamento de entidades de requer o rastreamento de informações de todas as entidades listadas dentro da última «janela de tempo de rastreamento». Para oferecer suporte a um grande número de entidades, a estratégia utiliza DistributedMapCache em vez de estado gerenciado. O formato da chave do cache é “ListedEntities::{processorId}(::{nodeId})”. Se ele rastrear por entidade listada de nó, a parte opcional “::{nodeId}” será adicionada para gerenciar o estado separadamente. Por exemplo, chave de cache ampla do cluster =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”, por chave do cache do nó =”ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3” O conteúdo do cache armazenado é Gzipado JSON cadeia de caracteres. A chave do cache será excluída quando a configuração da listagem de destino for alterada. Usado pela estratégia de «Rastreamento de entidades».

Janela de tempo de rastreamento de entidades

Especifique por quanto tempo esse processador deve rastrear entidades já listadas. A estratégia de “Rastreamento de entidades” pode escolher qualquer entidade cujo carimbo de data/hora esteja dentro da janela de tempo especificada. Por exemplo, se definido como “30 minutos”, qualquer entidade que tenha um carimbo de data/hora nos últimos 30 minutos será o destino da listagem quando esse processador for executado. Uma entidade listada é considerada “nova/atualizada” e um FlowFile é emitido se uma das seguintes condições for atendida: 1. não existe nas entidades já listadas, 2. tem um carimbo de data/hora mais recente do que a entidade em cache, 3. tem tamanho diferente do que a entidade em cache. Se o carimbo de data/hora de uma entidade em cache se tornar mais antigo do que o período especificado, essa entidade será removida das entidades em cache já listadas. Usado pela estratégia de “Rastreamento de entidades”.

Listing Strategy

Especifica como determinar entidades novas/atualizadas. Veja as descrições de cada estratégia para obter detalhes.

Record Writer

Especifica o Record Writer a ser usado para criar a listagem. Se não for especificado, será criado um FlowFile para cada entidade listada. Se o Record Writer for especificado, todas as entidades serão gravadas em um único FlowFile em vez de adicionar Rastreamento de entidades atributos aos FlowFiles.

connect-timeout

Tempo máximo de espera para conexão com o serviço do Google Drive.

folder-id

O ID da pasta da qual a lista de arquivos será extraída. Consulte Detalhes adicionais para configurar o acesso ao Google Drive e obter o ID de pasta. WARNING: o acesso não autorizado à pasta é tratado como se a pasta estivesse vazia. Isso faz com que o processador não crie FlowFiles. Nenhuma mensagem de erro adicional é fornecida.

gcp-credentials-provider-service

O Controller Service usado para obter as credenciais do Google Cloud Platform.

min-age

A idade mínima que um arquivo deve ter para ser considerado; qualquer arquivo mais novo que isso será ignorado.

proxy-configuration-service

Especifica o serviço de Controller Service de configuração de proxy para a realização de proxy de solicitações de rede.

read-timeout

Tempo máximo de espera para resposta do serviço Google Drive.

recursive-search

Quando “verdadeiro”, incluirá a lista de arquivos de subpastas concretas (ignora atalhos). Caso contrário, retornará apenas arquivos que tenham o ID de pasta diretamente definido como pai. WARNING: a listagem pode falhar se houver muitas subpastas (mais de 500).

Gerenciamento do estado

Escopos

Descrição

CLUSTER

O processador armazena os dados necessários para poder rastrear quais arquivos já foram listados. O que exatamente precisa ser armazenado depende da “Estratégia de listagem”. O estado é armazenado em todo o cluster para que esse processador possa ser executado somente no nó primário e, se um novo nó primário for selecionado, o novo nó poderá continuar de onde o nó anterior parou, sem duplicar os dados.

Relações

Nome

Descrição

success

Todos os FlowFiles que são recebidos são encaminhados para a relação “success”

Grava atributos

Nome

Descrição

drive.id

O ID do arquivo

filename

O nome do arquivo

mime.type

O tipo MIME do arquivo

drive.size

O tamanho do arquivo. Defina como 0 quando o tamanho do arquivo não estiver disponível (por exemplo, arquivos armazenados externamente).

drive.size.available

Indica se o tamanho do arquivo é conhecido/disponível

drive.timestamp

A hora da última modificação ou a hora de criação (o que for maior) do arquivo. A razão para isso é que a data original de modificação de um arquivo é preservada quando ele é carregado no Google Drive. “Tempo de criação” indica o momento em que o upload ocorre. No entanto, os arquivos carregados ainda podem ser modificados posteriormente.

drive.created.time

A hora de criação do arquivo

drive.modified.time

A hora da última modificação do arquivo

drive.path

O caminho do diretório do arquivo a partir do diretório base. O caminho contém os nomes das pastas no formato codificado de URL porque o Google Drive permite caracteres especiais em nomes de arquivos, incluindo “/” (barra) e “” (barra invertida). Os nomes de pastas codificados em URL são separados por “/” no caminho.

drive.owner

O proprietário do arquivo

drive.last.modifying.user

O último usuário que modificou o arquivo

drive.web.view.link

Link de exibição da Web para o arquivo

drive.web.content.link

Link de conteúdo da Web para o arquivo

drive.parent.folder.id

O ID da pasta pai do arquivo

drive.parent.folder.name

O nome da pasta pai do arquivo

drive.listed.folder.id

O ID da pasta base que foi listada

drive.listed.folder.name

O nome da pasta base que foi listada

drive.shared.drive.id

O ID da unidade compartilhada (se o arquivo estiver localizado em uma unidade compartilhada)

drive.shared.drive.name

O nome da unidade compartilhada (se o arquivo estiver localizado em uma unidade compartilhada)

Consulte também