Sobre o Openflow¶
O Snowflake Openflow é um serviço de integração que conecta qualquer fonte de dados e qualquer destino com centenas de processadores que oferecem suporte a texto estruturado e não estruturado, imagem, áudio, vídeo e dados de sensores. Criado com base no Apache NiFi, o Openflow permite que você execute um serviço totalmente gerenciado em sua própria nuvem para ter controle total.
Nota
A plataforma Openflow está disponível para implantação nas próprias VPCs dos clientes, tanto AWS quanto Snowpark Container Services.
Este tópico descreve os principais recursos do Openflow, seus benefícios, arquitetura, fluxo de trabalho e casos de uso.
Principais recursos e benefícios¶
- Aberto e extensível
Um serviço gerenciado extensível com tecnologia Apache NiFi, permitindo criar e estender processadores de qualquer fonte de dados para qualquer destino.
- Plataforma de integração de dados unificada
O Openflow permite que engenheiros de dados lidem com extração e carregamento de dados complexos e bidirecionais por meio de um serviço totalmente gerenciado que pode ser implantado dentro da sua própria VPC ou dentro de sua implantação do Snowflake.
- Preparado para Enterprise
O Openflow oferece segurança, conformidade e ganchos de observabilidade e manutenção prontos para uso para integração de dados.
- Ingestão de alta velocidade de todos os tipos de dados
Uma plataforma unificada permite que você lide com dados estruturados e não estruturados, tanto em lote quanto em streaming, desde sua fonte de dados até Snowflake em praticamente qualquer escala.
- Ingestão contínua de dados multimodais para processamento por AI
Uma ingestão de dados não estruturados em tempo real, para que você possa bate-papo imediatamente com seus dados provenientes de fontes como Sharepoint, Google Drive e assim por diante.
Modelos de Openflow - Snowflake Deployment¶
O Openflow tem suporte tanto na forma de Traga sua própria nuvem (BYOC) quanto de Snowpark Container Services (SPCS).
Openflow - Snowflake Deployment (SPCS)
Openflow - Snowflake Deployment, usando Snowpark Container Services (SPCS), fornece uma solução simplificada e integrada para conectividade. Como o SPCS é um serviço independente dentro do Snowflake, é fácil de implantar e gerenciar e oferece um ambiente conveniente e econômico para executar seus fluxos de dados. Uma das principais vantagens da Openflow - Snowflake Deployment é sua integração nativa com o modelo de segurança do Snowflake, que permite autenticação, autorização e segurança de rede perfeitas e operações simplificadas.
Ao configurar a Openflow - Snowflake Deployments, siga o processo conforme descrito em Configuração da Implantação do Openflow - Snowflake.
Openflow BYOC
O Openflow Bring Your Own Cloud (BYOC) oferece uma solução de conectividade que você pode usar para conectar sistemas públicos e privados com segurança e lidar com o pré-processamento de dados confidenciais localmente, dentro dos limites seguros do ambiente de nuvem da sua organização. O BYOC refere-se a uma opção de implantação em que o mecanismo de processamento de dados Openflow, ou plano de dados, é executado em seu próprio ambiente de nuvem, enquanto o Snowflake gerencia o serviço e o ambiente de gerenciamento geral do Openflow.
Ao configurar as implantações de BYOC, siga o processo conforme descrito em Configuração do Openflow - BYOC.
Casos de uso¶
Use o Openflow se quiser buscar dados de qualquer origem e colocá-los em qualquer destino com o mínimo de gerenciamento, juntamente com a segurança e governança de dados integradas do Snowflake.
Os casos de uso do Openflow incluem:
Ingerir dados de fontes de dados não estruturadas, como o Google Drive e o Box, e deixe-os prontos para o bate-papo em seus assistentes do AI com o Snowflake Cortex ou use os dados para seu próprio processamento personalizado.
Replique a captura de dados de alteração (CDC) de tabelas de banco de dados no Snowflake para obter relatórios abrangentes e centralizados.
Faça a ingestão de eventos em tempo real de serviços de fluxo, como o Apache Kafka, no Snowflake, para obter análises quase em tempo real.
Ingestão de dados de plataformas SaaS, como LinkedIn Ads, para Snowflake com a finalidade de gerar relatórios, análises e insights.
Crie um fluxo de dados do Openflow usando processadores e serviços de controlador Snowflake e NiFi.
Segurança¶
O Openflow usa recursos de segurança líderes do setor que ajudam a garantir que você tenha os mais altos níveis de segurança para sua conta, e usuários, e todos os dados que você armazena no Snowflake. Alguns aspectos principais incluem:
- Autenticação
Os tempos de execução usam OAuth2 para autenticação no Snowflake.
- Autorização
O Openflow oferece suporte a funções refinadas para RBAC
ACCOUNTADMIN para conceder privilégios e poder criar implementações e tempos de execução
- Criptografia em trânsito
Os conectores Openflow oferecem suporte ao protocolo TLS, usando clientes Snowflake padrão para ingestão de dados.
Todas as comunicações entre as implantações do Openflow e o ambiente de gerenciamento do Openflow são criptografadas usando o protocolo TLS.
- Gerenciamento de segredos (BYOC)
Integração com o AWS Secrets Manager ou o Hashicorp Vault. Para obter mais informações, consulte Senhas criptografadas em arquivos de configuração.
- Suporte a links privados
Os conectores Openflow são compatíveis com dados de leitura e gravação no Snowflake usando o AWS PrivateLink de entrada.
- Suporte ao Tri-Secret Secure
Os conectores Openflow são compatíveis com o Tri-Secret Secure para gravação de dados no Snowflake.
Arquitetura¶
O diagrama a seguir ilustra a arquitetura do Openflow:
O agente de implantação instala e inicializa a infraestrutura de implantação do Openflow em sua VPC e sincronizar regularmente imagens de contêiner do registro de imagens do sistema Snowflake.
Os componentes do Openflow incluem:
- Implantação
Uma implantação é onde seus fluxos de dados são executados, em tempos de execução individuais. Muitas vezes, você terá vários tempos de execução para isolar diferentes projetos, equipes ou por motivos de SDLC, todos associados a uma única implantação.
- Ambiente de gerenciamento
O ambiente de gerenciamento é uma camada na arquitetura que contém todos os componentes usados para gerenciar e observar, incluindo o serviço e a API do Openflow, com os quais os usuários interagem por meio da UI do Openflow ou por meio de interação direta com as APIs do Openflow. Em implantações do Openflow Snowflake, o ambiente de gerenciamento (CP) consiste na infraestrutura/serviços de nuvem público de propriedade do Snowflake e no próprio aplicativo do ambiente de gerenciamento.
- Openflow - Snowflake Deployment
Os serviços de Openflow - Snowflake Deployment são implantados usando um pool de computação e incorrem em encargos de utilização com base em seu tempo de atividade e uso de computação. Consulte Custo de implantação do Snowflake e considerações sobre dimensionamento para obter mais informações.
Tempo de execução
Os tempos de execução hospedam seus pipelines de dados, com a estrutura que proporciona segurança, simplicidade e escalabilidade. É possível implantar tempos de execução do Openflow em suaVPC usando o Openflow. Você pode implantar conectores Openflow em seus tempos de execução e também criar pipelines completamente novos usando processadores Openflow e serviços de controle.
- Tempo de execução de Openflow - Snowflake Deployment
Um tempo de execução de Openflow - Snowflake Deployment é implantado como um serviço Openflow - Snowflake Deployment para uma implantação de Openflow - Snowflake Deployment, representada por um pool de computação subjacente. Os clientes solicitam um tempo de execução de Openflow - Snowflake Deployment pela implantação, que executa uma solicitação em nome do usuário ao serviço. Depois de criado, os clientes o acessam por meio de um navegador da Web no URL gerado para esse serviço de Openflow - Snowflake Deployment específico.
