Continuous data pipeline examples¶
Este tópico fornece exemplos práticos de casos de uso para pipelines de dados.
Pré-requisitos¶
A função utilizada para executar as instruções SQL nestes exemplos requer os seguintes privilégios de controle de acesso:
EXECUTE TASKPrivilégio EXECUTE TASK global para executar tarefas
USAGEPrivilégio USAGE no banco de dados e o esquema nos quais as instruções SQL são executadas, bem como sobre o warehouse que executa quaisquer tarefas nestes exemplos.
CREATE objectDiversos privilégios
CREATE objectno esquema em que as instruções SQL são executadas, para criar objetos tais como tabelas, fluxos e tarefas.
Para obter mais informações sobre o controle de acesso no Snowflake, consulte Visão geral do controle de acesso.
Transform loaded JSON data on a schedule¶
O exemplo seguinte carrega dados JSON brutos em uma única tabela de destino chamada raw. Duas tarefas consultam fluxos de tabela criados na tabela raw e inserem subconjuntos de linhas em várias tabelas. Uma vez que cada tarefa consome os registros de captura de dados de alteração em um fluxo de tabela, são necessários vários fluxos.
Unload data on a schedule¶
No exemplo a seguir, os registros de captura de dados de alteração em um fluxo são descarregados em um preparo interno (ou seja, do Snowflake).
Refresh external table metadata on a schedule¶
No exemplo a seguir, os metadados para uma tabela externa chamada mydb.myschema.exttable são atualizados (usando ALTER EXTERNAL TABLE … REFRESH) em um cronograma.
Nota
Quando uma tabela externa é criada, o parâmetro AUTO_REFRESH é definido como TRUE por padrão. Recomendamos que você aceite este valor padrão para tabelas externas que fazem referência a arquivos de dados em estágios do Amazon S3 ou do Microsoft Azure. Entretanto, a opção de atualização automática não está disponível atualmente para tabelas externas que fazem referência a preparos de Google Cloud Storage. No caso destas tabelas externas, pode ser útil atualizar manualmente os metadados em um cronograma.