Introdução aos pipelines de dados¶
Os pipelines de dados automatizam muitas das etapas manuais envolvidas na transformação e otimização de carregamentos contínuos de dados. Frequentemente, os dados «brutos» são primeiro carregados temporariamente em uma tabela de preparação usada para armazenamento temporário e depois transformados usando uma série de instruções de SQL antes de serem inseridos nas tabelas de relatório de destino. O fluxo de trabalho mais eficiente para este processo envolve a transformação apenas de dados novos ou modificados.
Neste tópico:
Recursos incluídos em pipelines contínuos de dados¶
O Snowflake oferece os seguintes recursos para permitir pipelines contínuos de dados:
- Carregamento contínuo de dados:
Dentre as opções para carregamento contínuo de dados estão:
Ferramentas de integração de dados de terceiros
- Transformação contínua de dados:
Tabelas dinâmicas são pipelines de dados automatizados declarativos que simplificam a engenharia de dados e fornecem uma maneira simples de transformar dados. Em vez de definir as etapas de transformação de dados como uma série de tarefas, você pode simplesmente definir o estado final da transformação.
Consulte Tabelas dinâmicas para obter mais informações.
- Rastreamento de dados de alteração:
Um objeto de fluxo registra o delta de informações de captura de dados de alteração (CDC) para uma tabela - tal como uma tabela de preparação - incluindo inserções e outras alterações na linguagem de manipulação de dados (DML). Um fluxo permite consultar e consumir um conjunto de alterações em uma tabela, no nível de linha, entre dois pontos de tempo transacionais.
Em um pipeline de dados contínuo, fluxos de tabela registram quando as tabelas de preparação e quaisquer tabelas a jusante são preenchidas com dados de aplicativos comerciais usando carregamento contínuo de dados e estão prontas para continuar o processamento usando instruções SQL.
Para obter mais informações, consulte Rastreamento de alterações usando fluxos de tabela.
- Tarefas recorrentes:
Um objeto tarefa define um cronograma recorrente para executar uma instrução SQL, incluindo instruções que chamam procedimentos armazenados. As tarefas podem ser encadeadas para uma execução sucessiva a fim de oferecer suporte a um processamento periódico mais complexo.
Opcionalmente, as tarefas podem usar fluxos de tabela para oferecer uma forma conveniente de processar continuamente dados novos ou alterados. Uma tarefa pode transformar linhas novas ou alteradas evidenciadas por um fluxo. Cada vez que uma tarefa é programada para ser executada, ela pode verificar se um fluxo contém dados de alteração para uma tabela (usando SYSTEM$STREAM_HAS_DATA) e consumir os dados de alteração ou pular a execução atual, caso não existiam dados de alteração.
Os usuários podem definir uma estrutura de tarefa simples em forma de árvore que executa instruções SQL consecutivas para processar dados e movê-los para várias tabelas de destino.
Para obter mais informações, consulte Execução de instruções SQL em um cronograma utilizando tarefas.