Sobre a Openflow Connector for Excel

Nota

O conector está sujeito aos termos do conector.

Este tópico descreve os conceitos básicos do Openflow Connector for Excel, seu fluxo de trabalho e suas limitações.

O Openflow Connector for Excel conecta uma instância do AWS S3 ou um site do Microsoft SharePoint ao Snowflake para ingerir periodicamente arquivos do Microsoft Excel e armazenar os dados ingeridos nas tabelas Snowflake.

O conector oferece suporte à ingestão do seguinte:

  • Todas as planilhas do Excel

  • Planilhas Excel especificadas

  • Intervalos especificados de dados presentes em uma pasta de trabalho do Excel

O conector executa apenas a ingestão de truncamento e carga. Isso significa que toda vez que um arquivo é ingerido, os dados existentes no Snowflake são completamente substituídos pelos novos dados do arquivo.

Use esse conector se quiser fazer o seguinte:

  • Carregue os dados de planilhas do Microsoft Excel em tabelas Snowflake para relatórios e análises

  • Carregue os dados de planilhas Excel no SharePoint em tabelas Snowflake para relatórios e análises

Fluxo de trabalho

Com base em sua fonte de dados, os fluxos de trabalho para o conector são os seguintes:

Fluxo de trabalho para conectar uma instância do AWS S3

  1. Um administrador AWS executa as seguintes tarefas:

    1. Cria um usuário IAM e credenciais em sua conta AWS.

    2. Observa a região AWS na qual a instância S3 existe, por exemplo, us-west-2.

    3. Identifica os arquivos a serem ingeridos.

  2. Um administrador de conta Snowflake executa as seguintes tarefas:

    1. Define os nomes desejados do banco de dados e do esquema no Snowflake.

    2. Designa um warehouse a ser usado pelo conector.

    3. Configura o usuário Snowflake usado pelo conector e uma função para esse usuário.

  3. Um engenheiro de dados executa as seguintes tarefas:

    1. Faz o download e importa o arquivo de definição do conector para a tela do Snowflake Openflow.

    2. Configura os parâmetros do conector:

      1. Fornece as credenciais AWS.

      2. Fornece as credenciais de usuário e a configuração do Snowflake.

      3. Define os critérios para os objetos que estão sendo ingeridos, fornecendo filtros.

    3. Inicia o fluxo na tela do Openflow. Após a execução, o fluxo realiza as seguintes ações:

      1. Faz o download dos arquivos especificados a partir do bucket S3.

      2. Extrai dados relevantes.

      3. Cria a tabela de destino configurada no banco de dados do Snowflake.

      4. Carrega os dados processados na tabela Snowflake designada.

Fluxo de trabalho para conectar um site SharePoint da Microsoft

  1. O administrador SharePoint executa as seguintes tarefas:

    1. Cria um novo aplicativo Microsoft Entra.

    2. Configura o SharePoint para ativar a autenticação OAuth.

    3. Identifica os arquivos a serem ingeridos.

  2. Um administrador de conta Snowflake executa as seguintes tarefas:

    1. Define os nomes desejados do banco de dados e do esquema no Snowflake.

    2. Designa um warehouse a ser usado pelo conector.

    3. Configura o usuário Snowflake usado pelo conector e uma função para esse usuário.

  3. Um engenheiro de dados executa as seguintes tarefas:

    1. Faz o download e importa o arquivo de definição do conector para a tela do Snowflake Openflow.

    2. Configura os parâmetros do conector:

      1. Fornece as credenciais SharePoint.

      2. Fornece as credenciais de usuário e a configuração do Snowflake.

      3. Define os critérios para os objetos que estão sendo ingeridos, fornecendo filtros.

    3. Inicia o fluxo na tela do Openflow. Após a execução, o fluxo realiza as seguintes ações:

      1. Faz o download dos arquivos especificados no site SharePoint.

      2. Extrai dados relevantes.

      3. Cria a tabela de destino configurada no banco de dados do Snowflake.

      4. Carrega os dados processados na tabela Snowflake designada.

Limitações

  • Atualmente, somente arquivos .xlsx são compatíveis (Office 2007 e versões posteriores). Os seguintes tipos de arquivo não são compatíveis:

    • arquivos .xls (versões do Office 97 ao Office 2003)

    • arquivos .xlsm (pastas de trabalho habilitadas para macro)

    • arquivos .xlsb (pastas de trabalho binárias)

  • Arquivos .xlsx grandes podem sobrecarregar o tempo de execução do Openflow ou causar problemas que afetem outros fluxos do conector. Devido às limitações de memória, o tamanho do arquivo (supondo que o conector possa usar todos os recursos do nó) não deve ser maior que:

    • 2 MB para um nó de tempo de execução Small.

    • 10 MB para um nó de tempo de execução Medium.

    • 20 MB para um nó de tempo de execução Large.

  • Para colunas com tipos de dados mistos (por exemplo, números e cadeias de caracteres) dentro da mesma coluna:

    • Os valores são salvos como VARIANTs na tabela Snowflake.

    • O esquema dos dados ingeridos (ou seja, os tipos de dados para as colunas) é atualmente inferido usando as primeiras 10 linhas. Se as primeiras 10 linhas forem do mesmo tipo, o tipo de coluna poderá não ser reconhecido corretamente como misto.

  • Se toda a planilha tiver que ser ingerida, sem nenhum intervalo específico, a primeira linha, começando na célula A1, deverá ser a linha de cabeçalho e conter os nomes das colunas.

Próximos passos

Configure o Openflow Connector for Excel