Sobre a Openflow Connector for Excel¶
Nota
O conector está sujeito aos termos do conector.
Este tópico descreve os conceitos básicos do Openflow Connector for Excel, seu fluxo de trabalho e suas limitações.
O Openflow Connector for Excel conecta uma instância do AWS S3 ou um site do Microsoft SharePoint ao Snowflake para ingerir periodicamente arquivos do Microsoft Excel e armazenar os dados ingeridos nas tabelas Snowflake.
O conector oferece suporte à ingestão do seguinte:
Todas as planilhas do Excel
Planilhas Excel especificadas
Intervalos especificados de dados presentes em uma pasta de trabalho do Excel
O conector executa apenas a ingestão de truncamento e carga. Isso significa que toda vez que um arquivo é ingerido, os dados existentes no Snowflake são completamente substituídos pelos novos dados do arquivo.
Use esse conector se quiser fazer o seguinte:
Carregue os dados de planilhas do Microsoft Excel em tabelas Snowflake para relatórios e análises
Carregue os dados de planilhas Excel no SharePoint em tabelas Snowflake para relatórios e análises
Fluxo de trabalho¶
Com base em sua fonte de dados, os fluxos de trabalho para o conector são os seguintes:
Fluxo de trabalho para conectar uma instância do AWS S3¶
Um administrador AWS executa as seguintes tarefas:
Cria um usuário IAM e credenciais em sua conta AWS.
Observa a região AWS na qual a instância S3 existe, por exemplo, us-west-2.
Identifica os arquivos a serem ingeridos.
Um administrador de conta Snowflake executa as seguintes tarefas:
Define os nomes desejados do banco de dados e do esquema no Snowflake.
Designa um warehouse a ser usado pelo conector.
Configura o usuário Snowflake usado pelo conector e uma função para esse usuário.
Um engenheiro de dados executa as seguintes tarefas:
Faz o download e importa o arquivo de definição do conector para a tela do Snowflake Openflow.
Configura os parâmetros do conector:
Fornece as credenciais AWS.
Fornece as credenciais de usuário e a configuração do Snowflake.
Define os critérios para os objetos que estão sendo ingeridos, fornecendo filtros.
Inicia o fluxo na tela do Openflow. Após a execução, o fluxo realiza as seguintes ações:
Faz o download dos arquivos especificados a partir do bucket S3.
Extrai dados relevantes.
Cria a tabela de destino configurada no banco de dados do Snowflake.
Carrega os dados processados na tabela Snowflake designada.
Limitações¶
Atualmente, somente arquivos .xlsx são compatíveis (Office 2007 e versões posteriores). Os seguintes tipos de arquivo não são compatíveis:
arquivos .xls (versões do Office 97 ao Office 2003)
arquivos .xlsm (pastas de trabalho habilitadas para macro)
arquivos .xlsb (pastas de trabalho binárias)
Arquivos .xlsx grandes podem sobrecarregar o tempo de execução do Openflow ou causar problemas que afetem outros fluxos do conector. Devido às limitações de memória, o tamanho do arquivo (supondo que o conector possa usar todos os recursos do nó) não deve ser maior que:
2 MB para um nó de tempo de execução
Small
.10 MB para um nó de tempo de execução
Medium
.20 MB para um nó de tempo de execução
Large
.
Para colunas com tipos de dados mistos (por exemplo, números e cadeias de caracteres) dentro da mesma coluna:
Os valores são salvos como VARIANTs na tabela Snowflake.
O esquema dos dados ingeridos (ou seja, os tipos de dados para as colunas) é atualmente inferido usando as primeiras 10 linhas. Se as primeiras 10 linhas forem do mesmo tipo, o tipo de coluna poderá não ser reconhecido corretamente como misto.
Se toda a planilha tiver que ser ingerida, sem nenhum intervalo específico, a primeira linha, começando na célula A1, deverá ser a linha de cabeçalho e conter os nomes das colunas.