Configure o Openflow Connector for Google Sheets¶

Nota

O conector está sujeito aos Termos do conector Snowflake.

Este tópico descreve as etapas para configurar o Openflow Connector for Google Sheets.

Pré-requisitos¶

Certifique-se de ter revisado Sobre a Openflow Connector for Google Sheets.
Certifique-se de ter revisado Configuração do Openflow - BYOC ou Configuração do Openflow – Implantações do Snowflake.
Se estiver usando Openflow - Snowflake Deployments, certifique-se de ter revisado a configuração dos domínios necessários e de ter concedido acesso aos domínios necessários para o conector Google Sheets.

Obtenção das credenciais do Google Cloud e configuração do projeto do Google Cloud¶

Como administrador do Google Cloud, execute as seguintes tarefas:

Certifique-se de ter o seguinte:
- Um usuário Google com permissões de superadministrador
- Um projeto Google Cloud com as seguintes funções:
  - Administrador de políticas da organização
  - Administrador da organização
Habilite a criação de chave de conta de serviço. O Google desabilita a criação de chave de conta de serviço por padrão.

Essa política de criação de chaves deve ser desativada para que o Snowflake Openflow use a conta de serviço JSON. Para ativar a criação de chave da conta de serviço, execute as seguintes tarefas:
1. Faça login no Google Cloud Console com uma conta de superadministrador que tenha a função de administrador de política organizacional.
2. Certifique-se de estar no projeto associado à sua organização, e não no projeto de sua organização.
3. Selecione Organization Policies.
4. Selecione a política Disable service account key creation.
5. Selecione Manage Policy e desative a aplicação.
6. Selecione Set Policy.
Crie uma conta de serviço e chave.
Compartilhe a planilha das Planilhas Google com o endereço de e-mail da conta de serviço. O endereço de e-mail pode ser encontrado no arquivo JSON da conta de serviço no campo client_email. Defina as permissões de compartilhamento para Visualizador.
Habilite a API Google Sheets para seu projeto do Google Cloud.

Para obter mais informações, consulte Habilitação da API Google Sheets.

Configure a conta Snowflake¶

Como administrador de conta Snowflake, execute as seguintes tarefas:

Crie uma nova função ou use uma função existente e conceda a Privilégios de banco de dados.
Crie um novo usuário de serviço Snowflake com o tipo SERVICE.
Conceda ao usuário do serviço Snowflake a função que você criou nas etapas anteriores.
Configure com a autenticação de pares de chaves para o usuário do Snowflake SERVICE da etapa 2.
A Snowflake recomenda enfaticamente essa etapa. Configure um gerenciador de segredos compatível com o Openflow, por exemplo, AWS, Azure e Hashicorp, e armazene as chaves públicas e privadas no armazenamento de segredos.

Nota

Se, por algum motivo, você não quiser usar um gerenciador de segredos, será responsável por proteger os arquivos de chave pública e chave privada usados para autenticação de pares de chaves de acordo com as políticas de segurança de sua organização.
1. Depois que o gerenciador de segredos estiver configurado, determine como você se autenticará nele. No AWS, é recomendável que você use a função de instância EC2 associada ao Openflow, pois dessa forma nenhum outro segredo precisa ser mantido.
2. No Openflow, configurar um provedor de parâmetros associado a este Secrets Manager, a partir do menu de configuração no canto superior direito. Navegue até Controller Settings » Parameter Provider e depois buscar seus valores de parâmetro.
3. Nesse momento, todas as credenciais podem ser referenciadas com os caminhos de parâmetros associados e nenhum valor sensível precisa ser mantido no Openflow.
Se qualquer outro usuário Snowflake precisar de acesso aos documentos e tabelas brutos ingeridos pelo conector (por exemplo, para processamento personalizado no Snowflake), conceda a esses usuários a função criada na etapa 1.
Designar um warehouse para o conector usar. Comece com o menor tamanho de warehouse e, em seguida, experimente o tamanho, dependendo do número de tabelas sendo replicadas e da quantidade de dados transferidos. Os números de tabelas grandes normalmente são mais bem dimensionados com warehouses multicluster, em vez de warehouses maiores.

Configuração do conector¶

Como engenheiro de dados, execute as seguintes tarefas para instalar e configurar o conector:

Instalação do conector¶

Para instalar o conector, faça o seguinte como engenheiro de dados:

Navegue até a página de visão geral do Openflow. Na seção Featured connectors, selecione View more connectors.
Na página de conectores do Openflow, localize o conector e selecione Add to runtime.
Na caixa de diálogo Select runtime, selecione seu tempo de execução na lista suspensa Available runtimes e clique em Add.

Nota

Antes de instalar o conector, verifique se você criou um banco de dados e um esquema no Snowflake para que o conector armazene os dados ingeridos.
Autentique-se na implementação com as credenciais de sua conta Snowflake e selecione Allow quando solicitado para permitir que o aplicativo de tempo de execução acesse sua conta Snowflake. O processo de instalação do conector leva alguns minutos para ser concluído.
Autentique-se no tempo de execução com as credenciais de sua conta Snowflake.

A tela do Openflow é exibida com o grupo de processos do conector adicionado a ela.

Configuração do conector¶

Clique com o botão direito do mouse no grupo de processos importado e selecione Parameters.
Preencha os valores dos parâmetros necessários conforme descrito em Parâmetros de fluxo.

Parâmetros de fluxo¶

A configuração da definição do conector é dividida em três contextos de parâmetros:

Parâmetros de origem das Planilhas Google: usados para estabelecer conexão com as Planilhas Google.
Parâmetros de destino das Planilhas Google: usados para estabelecer conexão com o Snowflake.
Parâmetros de ingestão das Planilhas Google: usados para definir a configuração dos dados baixados das Planilhas Google.

Nota

O contexto do parâmetro Parâmetros de ingestão das Planilhas Google contém detalhes específicos da planilha, portanto, você deve criar novos contextos de parâmetros para cada nova planilha e grupo de processos.

Para criar um novo contexto de parâmetro, acesse o menu do Openflow Canvas, selecione Parameter Contexts e adicione um novo contexto de parâmetro. Ele herda parâmetros dos contextos de parâmetros do Parâmetros de destino das Planilhas Google e Parâmetros de origem das Planilhas Google.

As tabelas a seguir descrevem os parâmetros de fluxo que você pode configurar com base nos contextos de parâmetros:

Parâmetros de destino das Planilhas Google¶


Parâmetro	Descrição	Obrigatório
Banco de dados de destino	O banco de dados onde os dados serão persistidos. Ele já deve existir no Snowflake. O nome diferencia maiúsculas de minúsculas. Para identificadores sem aspas, forneça o nome em maiúsculas.	Sim
Esquema de destino	O esquema onde os dados serão persistidos, que já deve existir no Snowflake. O nome diferencia maiúsculas de minúsculas. Para identificadores sem aspas, forneça o nome em maiúsculas. Veja os exemplos a seguir: `CREATE SCHEMA SCHEMA_NAME` ou `CREATE SCHEMA schema_name`: use `SCHEMA_NAME` `CREATE SCHEMA "schema_name"` ou `CREATE SCHEMA "SCHEMA_NAME"`: use `schema_name` ou `SCHEMA_NAME`, respectivamente	Sim
Estratégia de autenticação Snowflake	Ao utilizar: Implantação do Snowflake OpenFlow ou BYOC: Use SNOWFLAKE_MANAGED_TOKEN. O Snowflake gerencia este token automaticamente. As implantações BYOC já devem ter configurado as funções de tempo de execução para usar SNOWFLAKE_MANAGED_TOKEN. BYOC: o BYOC também pode usar KEY_PAIR como valor da estratégia de autenticação.	Sim
Identificador de conta Snowflake	Ao utilizar: Session Token Authentication Strategy: deve ficar em branco. KEY_PAIR: nome da conta Snowflake formatado como [nome-da-organização]-[nome-da-conta], onde os dados serão persistentes.	Sim
Chave privada Snowflake	Ao utilizar: Session Token Authentication Strategy: deve ficar em branco. KEY_PAIR: deve ser a chave privada RSA utilizada para a autenticação. A chave RSA deve ser formatada de acordo com os padrões PKCS8 e têm os cabeçalhos e rodapés PEM padrão. Observe que é necessário definir o arquivo de chave privada do Snowflake ou a chave privada do Snowflake.	Não
Arquivo de chave privada Snowflake	Ao utilizar: Estratégia de autenticação de token de sessão: o arquivo de chave privada deve estar em branco. KEY_PAIR: carregue o arquivo que contém a chave privada RSA usada para autenticação no Snowflake, formatado de acordo com os padrões PKCS8 e incluindo cabeçalhos e rodapés PEM padrão. A linha do cabeçalho começa com `-----BEGIN PRIVATE`. Para carregar o arquivo de chave privada, marque a caixa de seleção Reference asset.	Não
Senha de chave privada Snowflake	Ao usar Session Token Authentication Strategy: deve ficar em branco. KEY_PAIR: forneça a senha associada ao arquivo de chave privada do Snowflake.	Não
Função Snowflake	Ao usar Estratégia de autenticação de tokens de sessão: use sua função de tempo de execução. use sua função do Snowflake. Para encontrá-la, navegue até View Details do seu tempo de execução na UI do Openflow. Estratégia de autenticação de KEY_PAIR: use uma função válida configurada para o usuário do seu serviço.	Sim
Nome de usuário do Snowflake	Ao usar Session Token Authentication Strategy: deve ficar em branco. KEY_PAIR: forneça o nome de usuário usado para se conectar à instância do Snowflake.	Sim
Estratégia de valores excedentes	Determina como o conector lida com valores que excedem os limites de tamanho internos (16 MB) durante a replicação. Os valores possíveis são: Fail Table (padrão): a tabela é marcada como falha permanente, e a replicação é interrompida para essa tabela. Set Null: o valor é substituído por `NULL` na tabela de destino. Use esta opção para impedir falhas na tabela quando for aceitável perder dados em tabelas que ultrapassem o valor excedente.	Não
Warehouse Snowflake	Warehouse Snowflake usado para executar consultas.	Sim

Parâmetros de origem das Planilhas Google¶


Parâmetro	Descrição
Conta de serviço JSON	Conteúdo do arquivo que contém as credenciais da conta de serviço, como client_id, client_email e private_key. Copie todo o conteúdo do arquivo.

Parâmetros de ingestão das Planilhas Google¶

A tabela a seguir lista apenas os parâmetros que não são herdados de outros contextos de parâmetros.


Parâmetro	Descrição
Opção de renderização de data e hora	Determina como as datas devem ser renderizadas na saída. Você pode selecionar uma destas opções: `SERIAL_NUMBER` e `FORMATTED_STRING`. Selecione `SERIAL_NUMBER` somente quando o parâmetro Opção de renderização de valor estiver definido como `UNFORMATTED_VALUE`. Para obter mais informações, consulte DateTimeRenderOption.
Banco de dados de destino	O banco de dados de destino no qual a tabela de destino é criada.
Esquema de destino	O esquema de destino no qual a tabela de destino é criada.
Prefixo da tabela de destino	O prefixo da tabela de destino é onde os dados do relatório extraídos das Planilhas Google são armazenados. O conector cria uma tabela de destino para cada intervalo. Se nenhum intervalo for fornecido, os nomes das planilhas serão usados como identificadores de tabela. A primeira linha em uma planilha representa os nomes das colunas na tabela de destino.
Intervalos	A lista de intervalos a serem recuperados da planilha. Se nenhum intervalo for especificado, todas as planilhas da planilha especificada serão baixadas. Forneça cada intervalo na notação A1 ou R1C1, separado por vírgula. Por exemplo: `Sheet1!A1:B2,Sheet2!D4:E5,Sheet3`.
Cronograma de execução	Execute o cronograma no qual os dados são recuperados das Planilhas Google e salvos no Snowflake. Por padrão, a estratégia de agendamento orientada por temporizador é usada e, nesse caso, o usuário especifica um intervalo, por exemplo, `8h`.
ID de planilha	O identificador exclusivo de uma planilha. Você pode encontrá-lo no URL da planilha.
Opção de renderização de valor	Determina como os valores devem ser renderizados na saída. Você pode selecionar uma destas opções: `FORMATTED_VALUE` e `UNFORMATTED_VALUE`. Se você selecionar `FORMATTED_VALUE`, todas as colunas da tabela de destino serão do tipo VARCHAR. Para obter mais informações, consulte ValueRenderOption.

Nota

O identificador da tabela de destino é uma combinação do prefixo da tabela de destino e do nome de intervalo e deve ser exclusivo. Se o download de dados de várias planilhas, ou de planilhas individuais, e os nomes dos intervalos não forem exclusivos, será necessário especificar um prefixo de tabela de destino exclusivo para cada fluxo. O conector pode falhar, sobrescrevendo tabelas de destino existentes, se os nomes das tabelas de destino não forem exclusivos.

Execute o fluxo¶

Clique com o botão direito do mouse no plano e selecione Enable all Controller Services.
Clique com o botão direito do mouse no grupo de processos importado e selecione Start. O conector inicia a ingestão de dados.

Nota

O .xlsx importado deve estar no formato das Planilhas Google. Se você importar arquivos, certifique-se de que o arquivo seja convertido para o formato das Planilhas Google antes de executar os fluxos. As planilhas em qualquer formato que não seja Planilhas Google não podem ser lidas. Para obter mais informações, consulte . Converta arquivos para o formato das Planilhas Google.