Crie um fluxo de dados usando o Openflow¶
Este tópico descreve o processo de criação de um fluxo de dados no Openflow.
Pré-requisitos¶
Procedimento¶
Depois que o ambiente de tempo de execução estiver configurado, vamos criar um pipeline de dados simples. Como exemplo, geraremos registros com base em um esquema especificado, filtraremos esses registros com base em uma consulta SQL e, em seguida, enviaremos os dados ao Snowflake.
Para obter uma descrição detalhada de como criar fluxos de dados, consulte a documentação do Apache NiFi.
Abra o aplicativo Openflow. A grande área da grade, que provavelmente está vazia, é chamada de tela e abriga os componentes que você criará para implementar o fluxo de dados.
Crie um grupo de processos. Arraste e solte o ícone Grupo de processos da paleta de ferramentas na parte superior da página na tela. Ao soltar o ponteiro, será exibida uma janela pop-up Criar grupo de processos.
Digite um nome para o fluxo de dados, por exemplo, Exemplo de fluxo, e clique em Add.
Opcional: clique com o botão direito do mouse no grupo de processos que você acabou de criar e selecione Enter Group ` no menu contextual. Opcionalmente, você pode clicar duas vezes no grupo de processos. Isso cria uma abstração visual fora do nível superior da tela.
Adicione um processador. Para adicionar um processador, selecione a ferramenta Processor, arraste-a para a tela e solte o clique.
A caixa de diálogo Add Processor aparece.
Selecione o processador GenerateRecord ` na lista e clique em Add.
A tela agora mostra um processador recém-adicionado para você.
Nota
Você pode adicionar vários processadores.
Adicione os seguintes processadores. Eles serão configurados em etapas posteriores:
QueryRecord
PutDatabaseRecord
Configure os processadores.
Clique duas vezes em um processador. A caixa de diálogo Edit Processor aparece.
Modifique as seguintes propriedades:
Configurações
Agendamento
Propriedades
Relacionamentos:
Comentários
Crie conexões entre os processadores.
Passe o mouse sobre o primeiro processador. Um círculo com uma seta dentro aparece no meio do processador.
Clique no círculo com a seta no interior e arraste o ponteiro até o segundo processador. Isso criará uma linha pontilhada vermelha indicando que não está pronto para fazer uma conexão.
Mova o sprite sobre o segundo processador.
A linha pontilhada fica verde e uma borda verde aparece ao redor do processador de destino.
Solte o mouse. A janela pop-up Create Connection é exibida.
Observe os nomes From Processor e To Processor. Selecione a seção :ui: ‘Relações` e marque Success.
Clique em Add. A nova conexão é criada.
A conexão é apoiada por uma fila de FlowFiles que os abriga até que o próximo processador seja acionado e os consuma.
Adicione o serviço de controlador SnowflakeConnectionService ao fluxo.
Edite o serviço de controlador e preencha os campos necessários.
Faça login em sua conta Snowflake e crie um banco de dados.
No esquema PUBLIC do banco de dados, crie uma tabela padrão.
create table SAMPLE_DATA (
name STRING,
country STRING
)
Execute o fluxo no Openflow.
Consultar os dados.