ListGoogleDrive 2025.5.31.15¶
Pacote¶
org.apache.nifi | nifi-gcp-nar
Descrição¶
Executa uma listagem de arquivos concretos (os atalhos são ignorados) em uma pasta do Google Drive. Se a propriedade “Record Writer” for definida, será criada um único FlowFile de saída e cada arquivo da listagem será gravado como um único registro no arquivo de saída. Caso contrário, para cada arquivo da listagem, é criado um FlowFile individual, com os metadados sendo gravados como atributos do FlowFile. Esse processador foi projetado para ser executado somente no nó primário em um cluster. Se o nó primário mudar, o novo nó primário continuará de onde o nó anterior parou sem duplicar todos os dados. Consulte Detalhes adicionais para configurar o acesso ao Google Drive.
Requisito de entrada¶
FORBIDDEN
Oferece suporte a propriedades dinâmicas confidenciais¶
falso
Propriedades¶
Propriedade |
Descrição |
---|---|
connect-timeout |
Tempo máximo de espera para conexão com o serviço do Google Drive. |
et-initial-listing-target |
Especifique como a listagem inicial deve ser tratada. Usado pela estratégia “Rastreamento de entidades”. |
et-state-cache |
As entidades listadas são armazenadas no armazenamento em cache especificado, de modo que esse processador possa retomar a listagem por meio da reinicialização do NiFi ou em caso de alteração do nó primário. A estratégia “Rastreamento de entidades” exige informações de rastreamento de todas as entidades listadas na última “Janela de tempo de rastreamento”. Para oferecer suporte a um grande número de entidades, a estratégia usa DistributedMapCache em vez de estado gerenciado. O formato da chave de cache é “ListedEntities::{processorId}(::{nodeId})”. Se ele rastrear entidades listadas por nó, a parte opcional “::{nodeId}” será adicionada para gerenciar o estado separadamente. Por exemplo, a chave de cache de todo o cluster = “ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b”, per node cache key = “ListedEntities::8dda2321-0164-1000-50fa-3042fe7d6a7b::nifi-node3”. O conteúdo do cache armazenado é a cadeia de caracteres JSON compactada em Gzip. A chave de cache será excluída quando a configuração da listagem de destino for alterada. Usado pela estratégia “Rastreamento de entidades”. |
et-time-window |
Especifique por quanto tempo esse processador deve rastrear as entidades já listadas. A estratégia “Rastreamento de entidades” pode selecionar qualquer entidade cujo carimbo de data/hora esteja dentro da janela de tempo especificada. Por exemplo, se for definido como “30 minutes”, qualquer entidade com carimbo de data/hora nos últimos 30 minutos será o destino da listagem quando esse processador for executado. Uma entidade listada é considerada “nova/atualizada” e um FlowFile é emitido se uma das seguintes condições for atendida: 1. não existir nas entidades já listadas, 2. tiver um carimbo de data/hora mais recente do que a entidade em cache, e 3. tiver um tamanho diferente da entidade em cache. Se o carimbo de data/hora de uma entidade em cache for mais antigo do que a janela de tempo especificada, essa entidade será removida das entidades já listadas em cache. Usado pela estratégia “Rastreamento de entidades”. |
folder-id |
O ID da pasta da qual a lista de arquivos será extraída. Consulte Detalhes adicionais para configurar o acesso ao Google Drive e obter o ID de pasta. WARNING: o acesso não autorizado à pasta é tratado como se a pasta estivesse vazia. Isso faz com que o processador não crie FlowFiles. Nenhuma mensagem de erro adicional é fornecida. |
gcp-credentials-provider-service |
O Controller Service usado para obter as credenciais do Google Cloud Platform. |
listing-strategy |
Especifica como determinar entidades novas/atualizadas. Veja as descrições de cada estratégia para obter detalhes. |
min-age |
A idade mínima que um arquivo deve ter para ser considerado; qualquer arquivo mais novo que isso será ignorado. |
proxy-configuration-service |
Especifica o serviço de Controller Service de configuração de proxy para a realização de proxy de solicitações de rede. |
read-timeout |
Tempo máximo de espera para resposta do serviço Google Drive. |
record-writer |
Especifica o Record Writer a ser usado para criar a listagem. Se não for especificado, será criado um FlowFile para cada entidade listada. Se o Record Writer for especificado, todas as entidades serão gravadas em um único FlowFile em vez de adicionar Rastreamento de entidades atributos aos FlowFiles. |
recursive-search |
Quando “verdadeiro”, incluirá a lista de arquivos de subpastas concretas (ignora atalhos). Caso contrário, retornará apenas arquivos que tenham o ID de pasta diretamente definido como pai. WARNING: a listagem pode falhar se houver muitas subpastas (mais de 500). |
Gerenciamento do estado¶
Escopos |
Descrição |
---|---|
CLUSTER |
O processador armazena os dados necessários para poder rastrear quais arquivos já foram listados. O que exatamente precisa ser armazenado depende da “Estratégia de listagem”. O estado é armazenado em todo o cluster para que esse processador possa ser executado somente no nó primário e, se um novo nó primário for selecionado, o novo nó poderá continuar de onde o nó anterior parou, sem duplicar os dados. |
Relações¶
Nome |
Descrição |
---|---|
success |
Todos os FlowFiles que são recebidos são encaminhados para a relação “success” |
Grava atributos¶
Nome |
Descrição |
---|---|
drive.id |
O ID do arquivo |
filename |
O nome do arquivo |
mime.type |
O tipo MIME do arquivo |
drive.size |
O tamanho do arquivo. Defina como 0 quando o tamanho do arquivo não estiver disponível (por exemplo, arquivos armazenados externamente). |
drive.size.available |
Indica se o tamanho do arquivo é conhecido/disponível |
drive.timestamp |
A hora da última modificação ou a hora de criação (o que for maior) do arquivo. A razão para isso é que a data original de modificação de um arquivo é preservada quando ele é carregado no Google Drive. “Tempo de criação” indica o momento em que o upload ocorre. No entanto, os arquivos carregados ainda podem ser modificados posteriormente. |
drive.created.time |
A hora de criação do arquivo |
drive.modified.time |
A hora da última modificação do arquivo |
drive.path |
O caminho do diretório do arquivo a partir do diretório base. O caminho contém os nomes das pastas no formato codificado de URL porque o Google Drive permite caracteres especiais em nomes de arquivos, incluindo “/” (barra) e “” (barra invertida). Os nomes de pastas codificados em URL são separados por “/” no caminho. |
drive.owner |
O proprietário do arquivo |
drive.last.modifying.user |
O último usuário que modificou o arquivo |
drive.web.view.link |
Link de exibição da Web para o arquivo |
drive.web.content.link |
Link de conteúdo da Web para o arquivo |
drive.parent.folder.id |
O ID da pasta pai do arquivo |
drive.parent.folder.name |
O nome da pasta pai do arquivo |
drive.listed.folder.id |
O ID da pasta base que foi listada |
drive.listed.folder.name |
O nome da pasta base que foi listada |
drive.shared.drive.id |
O ID da unidade compartilhada (se o arquivo estiver localizado em uma unidade compartilhada) |
drive.shared.drive.name |
O nome da unidade compartilhada (se o arquivo estiver localizado em uma unidade compartilhada) |