Configure o Openflow Connector for Excel

Nota

O conector está sujeito aos termos do conector.

Este tópico descreve as etapas para configurar o Openflow Connector for Excel.

Pré-requisitos

  1. Certifique-se de ter revisado Sobre a Openflow Connector for Excel.

  2. Certifique-se de ter configurado o Openflow.

Obtenha as credenciais

Esta seção descreve as etapas para obter suas credenciais e configurar o conector. Dependendo de sua fonte de dados,

Obtenha as credenciais do AWS

Como administrador AWS, execute as seguintes tarefas:

  1. Faça login no console AWS IAM.

  2. Selecione o número em Users e, em seguida, selecione Create user.

  3. Especifique o nome de usuário, o grupo e as permissões adicionais, se necessário. O usuário deve ter pelo menos permissão s3:GetObject para acessar os objetos lidos pelo conector no bucket S3.

  4. Depois que o usuário for criado, na exibição de usuário, navegue até Security Credentials » Access Keys.

  5. Selecione Create access key. A nova chave de acesso deve conceder acesso apenas a recursos específicos. Para maior segurança e controle de acesso, o Snowflake recomenda permitir apenas o acesso a buckets S3 específicos.

  6. Tome nota de Access Key e Secret Access Key.

Obtenha as credenciais do SharePoint

O conector usa as seguintes Microsoft Graph APIs para buscar dados no SharePoint:

Como administrador do SharePoint, execute as seguintes ações:

  1. Faça login no centro de administração Microsoft Entra.

  2. Navegue até Applications » App registrations.

  3. Certifique-se de que você tenha um aplicativo com as seguintes permissões do aplicativo MS Graph. Para obter mais informações, consulte Obtenha acesso sem um usuário.

    • Para acessar o site do SharePoint, é necessário conceder uma das seguintes permissões:

      • Sites.Read.All – permite acesso de leitura a todos os sites.

      • Sites.Selected – limita o acesso apenas aos sites especificados.

    • Para acesso ao arquivo SharePoint (para downloads de arquivos), uma das seguintes permissões deve ser concedida:

      • Files.Read.All – permite acesso de leitura a todos os arquivos.

      • Arquivos.SelectedOperations.Selected – limita o acesso apenas a arquivos em sites especificados.

    Nota

    A Snowflake recomenda o uso de permissões selecionadas para maior segurança e controle de acesso.

  4. Obtenha as seguintes credenciais. Talvez seja necessário entrar em contato com o administrador de conta Azure ou do Office 365 para obter essas informações:

    • O URL de seu site SharePoint do Microsoft 365 com arquivos ou pastas que você deseja ingerir no Snowflake.

    • Seu ID de locatário. Para saber mais sobre o ID de locatário e como encontrá-lo no Microsoft Entra, consulte Encontre seu ID de locatário do Microsoft 365.

    • ID e segredo de cliente para seu aplicativo Microsoft Entra.

Configure a conta Snowflake

Como administrador de conta Snowflake, execute as seguintes tarefas:

  1. Crie uma nova função ou use uma função existente.

  2. Crie um novo usuário de serviço Snowflake com o tipo SERVICE.

  3. Conceda ao usuário do serviço Snowflake a função que você criou nas etapas anteriores.

  4. Configure com a autenticação de pares de chaves para o usuário do Snowflake SERVICE da etapa 2.

  5. Altamente recomendado Configure um gerenciador de segredos compatível com o Openflow; por exemplo, AWS, Azure e Hashicorp, e armazene as chaves públicas e privadas no armazenamento de segredos.

    Nota

    Se não quiser usar um gerenciador de segredos, você é responsável por proteger a chave pública e os arquivos de chave privada usados para autenticação de pares de chaves de acordo com as políticas de segurança de sua organização.

    1. Depois que o gerenciador de segredos estiver configurado, determine como você se autenticará nele. No AWS, é recomendável que você use a função de instância EC2 associada ao Openflow para que nenhum outro segredo tenha que ser mantido.

    2. No Openflow, configure um Parameter Provider associado a esse gerenciador de segredos, no menu de três traços no canto superior direito. Navegue até Controller Settings » Parameter Provider e busque os valores dos parâmetros.

    3. Nesse momento, todas as credenciais podem ser referenciadas com os caminhos de parâmetros associados e nenhum valor sensível precisa ser mantido no Openflow.

  6. Se qualquer outro usuário Snowflake precisar de acesso aos documentos e tabelas brutos ingeridos pelo conector (por exemplo, para processamento personalizado no Snowflake), conceda a esses usuários a função criada na etapa 1.

  7. Crie um banco de dados e um esquema no Snowflake para que o conector armazene os dados ingeridos. Conceda os Privilégios de banco de dados necessários para a função criada na primeira etapa. Substitua o espaço reservado para a função pelo valor real e use os seguintes comandos SQL:

    CREATE DATABASE excel_destination_db;
    CREATE SCHEMA excel_destination_db.excel_destination_schema;
    GRANT USAGE ON DATABASE excel_destination_db TO ROLE <excel_connector_role>;
    GRANT USAGE ON SCHEMA excel_destination_db.excel_destination_schema TO ROLE <excel_connector_role>;
    GRANT CREATE TABLE ON SCHEMA excel_destination_db.excel_destination_schema TO ROLE <excel_connector_role>;
    
    Copy
  8. Crie um warehouse que será usado pelo conector ou use um já existente. Comece com o menor tamanho de warehouse e, em seguida, experimente o tamanho, dependendo do número de tabelas sendo replicadas e da quantidade de dados transferidos. Os números de tabelas grandes normalmente são mais bem dimensionados com warehouses multicluster, em vez de warehouses maiores.

  9. Certifique-se de que o usuário com a função usada pelo conector tenha os privilégios necessários para usar o warehouse. Se esse não for o caso, conceda os privilégios necessários à função:

    CREATE WAREHOUSE excel_connector_warehouse WITH WAREHOUSE_SIZE = 'X-Small';
    GRANT USAGE ON WAREHOUSE excel_connector_warehouse TO ROLE <excel_connector_role>;
    
    Copy

Configuração do conector

Como engenheiro de dados, execute as seguintes tarefas para instalar e configurar um conector:

Instalação do conector

  1. Navegue até a página Visão geral do Openflow. Na seção Featured connectors, selecione View more connectors.

  2. Na página de conectores do Openflow, localize o conector e selecione Add to runtime.

  3. Na caixa de diálogo Select runtime, selecione seu tempo de execução na lista suspensa Available runtimes.

  4. Selecione Add.

    Nota

    Antes de instalar o conector, verifique se você criou um banco de dados e um esquema no Snowflake para que o conector armazene os dados ingeridos.

  5. Autentique-se na implementação com as credenciais de sua conta Snowflake e selecione Allow quando solicitado para permitir que o aplicativo de tempo de execução acesse sua conta Snowflake. O processo de instalação do conector leva alguns minutos para ser concluído.

  6. Autentique-se no tempo de execução com as credenciais de sua conta Snowflake.

A tela do Openflow é exibida com o grupo de processos do conector adicionado a ela.

Configuração do conector

  1. Configure o conector para buscar todos os segredos exigidos pelo conector, por exemplo, chave privada para autenticação de par de chaves e certificados, do gerenciador de segredos compatível.

  2. Clique com o botão direito do mouse no grupo de processos importado e selecione Parameters.

  3. Preencha os valores dos parâmetros necessários conforme descrito em Parâmetros de fluxo.

Parâmetros de fluxo

Esta seção descreve os parâmetros de fluxo que podem ser configurados com base na fonte de dados e nos contextos de parâmetro:

Parâmetros de fluxo: para o Amazon S3

Parâmetros de ingestão do Microsoft Excel (S3 para Snowflake)

Parâmetro

Descrição

Obrigatório

Prefixo da tabela de destino

O prefixo da tabela no esquema de destino em que os dados recuperados do arquivo do Excel serão mantidos. A tabela será criada automaticamente pelo conector.

Não

Senha do arquivo

Senha que protege o arquivo do Excel. Aplicável somente se o tipo de proteção for PASSWORD.

Não

Tipo de proteção

Tipo de proteção no arquivo do Excel. O valor pode ser UNPROTECTED se o arquivo estiver desprotegido, ou PASSWORD, se o arquivo estiver protegido por senha.

Sim

Intervalos

A notação A1 dos intervalos separados por vírgula para recuperar valores. Por exemplo: Sheet1!A1:B2,Sheet2!D4:E5,Sheet3. A primeira linha do intervalo selecionado deve representar os nomes das colunas. Se não for especificado, a pasta de trabalho inteira será ingerida. Os intervalos especificados são aplicados a todos os arquivos especificados em S3 Object Keys.

Não

Bucket S3

O bucket S3 do qual o arquivo Excel deve ser obtido.

Sim

Chaves de objeto S3

Lista de chaves de objeto separadas por vírgula no bucket S3 que contêm arquivos Excel a serem buscados. Exemplo: file1.xlsx,file2.xlsx.

Sim

Cronograma

Programe a ingestão do conector.

Sim

Parâmetros de origem do Microsoft Excel (S3 para Snowflake)

Parâmetro

Descrição

Obrigatório

ID da chave de acesso AWS

ID da chave de acesso para o usuário AWS que é usado para buscar o arquivo Excel.

Sim

Chave de acesso secreta AWS

Chave de acesso secreta para o usuário AWS que é usada para buscar o arquivo Excel.

Sim

Região AWS

Região AWS em que o bucket S3 reside.

Sim

Parâmetros de destino do Microsoft Excel (S3 para Snowflake)

Parâmetro

Descrição

Obrigatório

Banco de dados de destino

Nome (diferencia maiúsculas de minúsculas) do banco de dados Snowflake no qual os dados serão ingeridos.

Sim

Esquema de destino

Nome (diferencia maiúsculas de minúsculas) do esquema Snowflake em que as tabelas serão criadas.

Sim

Identificador de conta Snowflake

Nome da conta Snowflake formatado como [organization-name]-[account-name] onde os dados recuperados do arquivo Excel serão mantidos.

Sim

Chave privada Snowflake

A chave privada, formatada de acordo com os padrões PKCS8 e contendo cabeçalhos e rodapés padrão PEM, usada na autenticação de pares de chaves.

Sim

Senha de chave privada Snowflake

A senha da chave privada Snowflake. Deve ser deixado sem um valor se a chave não estiver protegida por senha.

Não

Função Snowflake

Função Snowflake que será usada pelo conector.

Sim

Usuário Snowflake

Nome de usuário para uma conta Snowflake.

Sim

Warehouse Snowflake

O warehouse Snowflake é usado para executar consultas ao inserir dados na tabela de destino.

Sim

Parâmetros de fluxo: para o SharePoint

Parâmetros de ingestão do Microsoft Excel (SharePoint para Snowflake)

Parâmetro

Descrição

Obrigatório

Prefixo da tabela de destino

O prefixo da tabela no esquema de destino em que os dados recuperados do arquivo Excel serão mantidos. A tabela será criada automaticamente pelo conector.

Não

Senha do arquivo

Senha que protege o arquivo do Excel. Aplicável somente se o tipo de proteção for PASSWORD.

Não

Tipo de proteção

Tipo de proteção no arquivo do Excel. O valor pode ser UNPROTECTED se o arquivo estiver desprotegido, ou PASSWORD, se o arquivo estiver protegido por senha.

Sim

Intervalos

A notação A1 dos intervalos separados por vírgula para recuperar valores. Por exemplo: Sheet1!A1:B2,Sheet2!D4:E5,Sheet3. A primeira linha do intervalo selecionado deve representar os nomes das colunas. Se não for especificado, a pasta de trabalho inteira será ingerida. Os intervalos especificados são aplicados a todos os arquivos especificados em SharePoint Files.

Não

Cronograma

Programe a ingestão do conector.

Sim

Nome da biblioteca de documentos SharePoint

Uma biblioteca no site do SharePoint onde residem os arquivos ingeridos.

Sim

Arquivos SharePoint

Lista de caminhos separados por vírgulas (relativos à raiz da biblioteca de documentos) dos arquivos Excel que serão ingeridos. Exemplo: file1.xlsx,folder/file2.xlsx.

Sim

Parâmetros de origem do Microsoft Excel (SharePoint para Snowflake)

Parâmetro

Descrição

Obrigatório

ID do cliente SharePoint

ID do cliente Microsoft Entra. Para saber mais sobre o ID de cliente e como encontrá-lo no Microsoft Entra, consulte ID de aplicativo (ID de cliente).

Sim

Segredo de cliente SharePoint

Segredo do cliente Microsoft Entra. Para saber mais sobre um segredo de cliente e como encontrá-lo no Microsoft Entra, consulte Certificados e segredos.

Sim

URL do site SharePoint

URL do site do SharePoint do qual os arquivos ingeridos serão baixados.

Sim

ID do locatário SharePoint

ID do locatário Microsoft Entra. Para saber mais sobre o ID de locatário e como encontrá-lo no Microsoft Entra, consulte Encontre seu ID de locatário do Microsoft 365.

Sim

Parâmetros de destino do Microsoft Excel (SharePoint para Snowflake)

Parâmetro

Descrição

Obrigatório

Banco de dados de destino

Nome (diferencia maiúsculas de minúsculas) do banco de dados Snowflake no qual os dados serão ingeridos.

Sim

Esquema de destino

Nome (diferencia maiúsculas de minúsculas) do esquema Snowflake em que as tabelas serão criadas.

Sim

Identificador de conta Snowflake

Nome da conta Snowflake formatado como [organization-name]-[account-name] onde os dados recuperados do arquivo Excel serão mantidos.

Sim

Chave privada Snowflake

A chave privada, formatada de acordo com os padrões PKCS8 e contendo cabeçalhos e rodapés padrão PEM, usada na autenticação de pares de chaves.

Sim

Senha de chave privada Snowflake

A senha da chave privada Snowflake. Deve ser deixado sem um valor se a chave não estiver protegida por senha.

Não

Função Snowflake

Função Snowflake que será usada pelo conector.

Sim

Usuário Snowflake

Nome de usuário para uma conta Snowflake.

Sim

Warehouse Snowflake

O warehouse Snowflake é usado para executar consultas ao inserir dados na tabela de destino.

Sim

Execute o fluxo

  1. Clique com o botão direito do mouse no plano e selecione Enable all Controller Services.

  2. Clique com o botão direito do mouse no grupo de processos importado e selecione Start. O conector inicia a ingestão de dados.

Nomes de tabelas gerados

O conector cria tabelas de destino nomeadas usando o seguinte modelo: {PREFIX}{FILENAME}_{RANGE}. Os nomes são sempre identificadores entre aspas duplas.

  • {PREFIX} é substituído pelo valor do parâmetro Destination Table Prefix, por exemplo, prfx_.

  • {FILENAME} é substituído pelo caminho completo do arquivo ingerido, por exemplo, file1.xlsx ou folder/file2.xlsx.

  • {RANGE} é substituído por:

    • Nome da planilha ingerida se o valor do parâmetro Ranges estiver vazio.

    • Nome da planilha ingerida com o intervalo ingerido, conforme especificado no parâmetro Ranges, por exemplo, Sheet1!A1:B2.

Exemplo de nomes de tabela gerados:

  • "file1.xlsx_Sheet1"

  • "prfx_folder/file2.xlsx_Sheet1!A1:B2"

(Opcional) Reconfigure o conector atualmente em execução

Você pode reconfigurar os parâmetros do conector depois que o conector já tiver começado a ingerir dados. Se você precisar alterar os arquivos ou intervalos ingeridos, execute as etapas a seguir para garantir que os dados sejam enviados corretamente ao Snowflake:

  1. Pare o conector: certifique-se de que todos os processadores Openflow estejam parados.

  2. Acesse as definições de configuração: navegue até as definições de configuração do conector no Openflow.

  3. Modifique os parâmetros: ajuste os parâmetros conforme necessário.

  4. Inicie o conector: inicie o conector e certifique-se também de que todos os serviços de controlador tenham sido iniciados.