Sobre o Openflow

O Snowflake Openflow é um serviço de integração que conecta qualquer fonte de dados e qualquer destino com centenas de processadores que oferecem suporte a texto estruturado e não estruturado, imagem, áudio, vídeo e dados de sensores. Criado com base no Apache NiFi, o Openflow permite que você execute um serviço totalmente gerenciado em sua própria nuvem para ter controle total.

Nota

Atualmente, a plataforma Openflow está disponível para implementação nos próprios clientes VPC no AWS.

Este tópico descreve os principais recursos do Openflow, seus benefícios, arquitetura e fluxo de trabalho e casos de uso.

Principais recursos e benefícios

  • Aberto e extensível: um serviço gerenciado extensível que é alimentado pelo Apache NiFi, permitindo que você crie e estenda processadores de qualquer fonte de dados para qualquer destino.

  • Plataforma unificada de integração de dados: o Openflow permite que os engenheiros de dados lidem com processos ETL complexos e bidirecionais por meio de um serviço totalmente gerenciado que pode ser implementado dentro da própria VPC do cliente, na nuvem ou no local.

  • Pronto para a empresa: o Openflow oferece segurança, conformidade, observabilidade e ganchos de manutenção prontos para uso para a integração de dados.

  • Ingestão de alta velocidade de todos os tipos de dados: uma plataforma unificada que permite a você lidar com dados estruturados e não estruturados, tanto em lote quanto em modos de streaming, a partir de sua fonte de dados para o Snowflake em praticamente qualquer escala.

  • Ingestão contínua de dados multimodais para processamento em AI: ingestão de dados não estruturados quase em tempo real, para que você possa conversar imediatamente com seus dados provenientes de fontes como Sharepoint, Google Drive e assim por diante.

Arquitetura

O diagrama a seguir ilustra a arquitetura do Openflow:

Arquitetura do Openflow

O agente de implementação instala e inicializa a infraestrutura de implementação do Openflow em sua VPC, além de sincronizar regularmente imagens de contêineres do Snowflake System Image Registry.

Alguns dos componentes do Openflow são:

  • Implementação: uma implementação é onde os fluxos de dados são executados, em tempos de execução individuais. Muitas vezes, você terá vários tempos de execução para isolar diferentes projetos, equipes ou por motivos de SDLC, todos associados a uma única implementação.

  • Tempo de execução: os tempos de execução hospedam seus pipelines de dados, com a estrutura fornecendo segurança, simplicidade e escalabilidade. Você pode implementar tempos de execução do Openflow em sua VPC usando o Openflow. Você pode implementar conectores Openflow em seus tempos de execução e também criar novos pipelines do zero usando processadores Openflow e serviços de controlador.

  • Plano de controle: o plano de controle é uma camada da arquitetura que contém todos os componentes usados para gerenciar e observar, incluindo o serviço Openflow e a API, com a qual os usuários interagem por meio da Openflow UI ou da interação direta com as Openflow APIs.

Fluxo de trabalho

Persona do usuário

Tarefa

Engenheiro/administrador de nuvem AWS

Cria um conjunto de implementações em sua conta de nuvem AWS.

A Openflow UI é usada para gerenciar implementações e criação e manutenção de tempo de execução. A Openflow UI permite que os usuários criem, redimensionem, atualizem e excluam tempos de execução em todas as implementações.

Os logins do Snowflake são usados para autenticar o Openflow, e as funções e os privilégios são usados para controlar o acesso às implementações e aos tempos de execução do Openflow.

Engenheiro de dados (autor do pipeline, responsável pela ingestão de dados)

Usa a tela de tempo de execução para criar fluxos do zero ou configurar conectores implementados.

Cria um novo fluxo do zero ou usa um conector existente sem alterações ou como ponto de partida para personalização. Preenche os dados na camada Bronze em sua conta Snowflake (ou outro sistema de destino).

Os conectores são uma maneira simples de resolver um caso de uso específico de integração, e os usuários menos técnicos podem implementá-los sem precisar necessariamente de um engenheiro de dados.

Engenheiro de dados (operador de pipeline)

Configura os parâmetros do fluxo e o executa

Engenheiro de dados (responsável pela transformação para as camadas Silver e Gold)

Responsável pela transformação de dados da camada Bronze que foi preenchida pelo pipeline para as camadas prata e ouro para análise.

Usuário corporativo

Faz uso de objetos de camada Gold para análise

Casos de uso

Use o Openflow se estiver procurando obter dados de qualquer fonte e colocá-los em qualquer destino com gerenciamento mínimo, juntamente com a segurança e a governança de dados incorporadas do Snowflake.

Alguns dos casos de uso do Openflow são os seguintes:

  • Ingerir dados de fontes de dados não estruturadas, como o Google Drive e o Box, e deixe-os prontos para o bate-papo em seus assistentes do AI com o Snowflake Cortex ou use os dados para seu próprio processamento personalizado.

  • Replique a captura de dados de alteração (CDC) de tabelas de banco de dados no Snowflake para obter relatórios abrangentes e centralizados.

  • Faça a ingestão de eventos em tempo real de serviços de fluxo, como o Apache Kafka, no Snowflake, para obter análises quase em tempo real.

  • Ingerir dados de plataformas SaaS, como LinkedIn Ads, para o Snowflake para gerar relatórios, análises e insights.

  • Crie um fluxo de dados usando o Openflow usando os processadores e controladores Snowflake e NiFi.

Segurança

O Openflow usa recursos de segurança líderes do setor que ajudam a garantir que você tenha os mais altos níveis de segurança para sua conta e seus usuários, bem como para todos os dados que armazena no Snowflake. Alguns aspectos importantes incluem:

  • Autenticação

    • Os tempos de execução usam OAuth2 para autenticação no Snowflake

  • Autorização

    • O Openflow oferece suporte a funções refinadas para RBAC

    • ACCOUNTADMIN para conceder privilégios e poder criar implementações e tempos de execução

  • Criptografia em trânsito

    • Os conectores Openflow oferecem suporte ao protocolo TLS, usando clientes Snowflake padrão para ingestão de dados

    • Todas as comunicações entre as implementações do Openflow e o plano de controle do Openflow são criptografadas usando o protocolo TLS

  • Gerenciamento de segredos (BYOC)

  • Suporte a links privados

    • Os conectores Openflow são compatíveis com a leitura e gravação de dados no Snowflake usando o AWS PrivateLink de entrada

  • Suporte ao Tri-Secret Secure

    • Os conectores Openflow são compatíveis com o Tri-Secret Secure para gravação de dados no Snowflake.

Disponibilidade regional

O Openflow está disponível para todas as contas em AWS Regiões comerciais. O Openflow não está disponível em regiões governamentais.

Limitações

  • Conforme descrito nos termos do Snowflake Openflow BYOC, a proteção do Openflow BYOC é um modelo de responsabilidade compartilhada.

  • A autorização do Openflow usa funções e seus privilégios associados que são concedidos diretamente ao usuário. Atualmente, o Openflow não oferece suporte à autorização quando a função está anexada a outra função na hierarquia de funções do usuário.

Próxima etapa

Configurar o Openflow