Configure o Openflow Connector for MySQL¶

Nota

O conector está sujeito aos Termos do conector Snowflake.

Este tópico descreve as etapas para configurar o Openflow Connector for MySQL.

Nota

This connector can be configured to immediately start replicating incremental changes for newly added tables, bypassing the snapshot load phase. This option is often useful when reinstalling the connector in an account where previously replicated data exists and you want to continue replication without having to re-snapshot tables.

For details on the incremental load process, see Incremental replication.

Pré-requisitos¶

Certifique-se de ter revisado Sobre a Openflow Connector for MySQL.
Ensure that you have Configuração do Openflow - BYOC or Set up Openflow - Snowflake Deployments.
If using Openflow - Snowflake Deployments, ensure that you’ve reviewed configuring required domains and have granted access to the required domains for the MySQL connector.
Certifique-se de que você tenha um MySQL 8 ou posterior para sincronizar os dados com o Snowflake.
Recomendado: certifique-se de adicionar apenas uma instância de conector por tempo de execução.

Como administrador de banco de dados, execute as seguintes tarefas:

Habilite os logs binários, salve e configure seu formato da seguinte forma:

`log_bin`	Defina como `on`. Isso habilita o log binário que registra alterações estruturais e de dados.
`binlog_format`	Defina como `row`. O conector suporta apenas a replicação baseada em linhas. Versões MySQL 8.x podem ser as últimas a suportar essa configuração, e as versões futuras suportarão apenas a replicação baseada em linhas. Não aplicável em GCP Cloud SQL, onde é fixado no valor correto.
`binlog_row_metadata`	Defina como `full`. O conector requer todos os metadados da linha para operar, principalmente os nomes das colunas e as informações da chave primária. Under Microsoft Azure Database for MySQL the `binlog_row_metadata` field is not user modifiable. Raise a Microsoft support ticket to change this value.
`binlog_row_image`	Defina como `full`. O conector exige que todas as colunas sejam gravadas no registro binário. Não aplicável no Amazon Aurora, onde é fixado no valor correto.
`binlog_row_value_options`	Deixe em branco. Essa opção afeta apenas as colunas JSON, onde pode ser definida para incluir apenas as partes modificadas dos documentos JSON para as instruções `UPDATE`. O conector exige que os documentos completos sejam gravados no registro binário.
`binlog_expire_logs_seconds`	Defina como pelo menos algumas horas, ou mais, para garantir que o agente de banco de dados possa continuar a replicação incremental após pausas prolongadas ou tempo de inatividade. A Snowflake recomenda que você defina o período de expiração do log binário (binlog_expire_logs_seconds) para pelo menos algumas horas para garantir o funcionamento estável do conector. Após o término do período de expiração do log binário, os arquivos de log binário podem ser removidos automaticamente. Se a integração for pausada por um longo período, por exemplo, devido a trabalhos de manutenção, e os arquivos de logs binários expirados forem excluídos durante esse período, o Openflow não poderá replicar os dados desses arquivos. Se você estiver usando a replicação programada, o valor precisa ser maior do que o cronograma configurado.

Por exemplo:

log_bin = on
binlog_format = row
binlog_row_metadata = full
binlog_row_image = full
binlog_row_value_options =

Copy

Aumente o valor de sort_buffer_size.
```
sort_buffer_size = 4194304
```
Copy
sort_buffer_size define a quantidade de memória (em bytes) alocada por thread de consulta para operações de classificação na memória, como ORDER BY. Se o valor for muito pequeno, o conector poderá falhar com a seguinte mensagem de erro:

Out of sort memory, consider increasing server sort buffer size. Isso indica que sort_buffer_size deve ser aumentado.
Se você estiver usando bancos de dados do Amazon RDS, aumente o período de retenção relevante para binlog_expire_logs_seconds usando rds_set_configuration. Por exemplo, se você quiser armazenar o log binário por 24 horas, chame mysql.rds_set_configuration('binlog retention hours', 24).
Ao usar uma réplica de leitura para conectar, o registro binário deve ser habilitado na réplica.

Os detalhes de configuração são fornecidos na etapa 4.
Depois que o registro binário estiver ativado, configurar a réplica para log os eventos recebidos de sua origem em seu próprio log binário.
```
log_replica_updates = ON
```
Copy
log_replica_updates permite que a réplica grave eventos recebidos de sua origem em seu próprio log binário, tornando essas alterações disponíveis para qualquer banco de dados que esteja sendo replicado a partir dela.
Conecte-se via SSL. Se estiver planejando usar uma conexão SSL para MySQL, prepare o certificado raiz para o servidor de banco de dados. Ele é necessário durante a configuração.
Crie um usuário para o conector. O conector requer um usuário com os privilégios REPLICATION_SLAVE e REPLICATION_CLIENT para ler os logs binários. Conceda esses privilégios:
```
GRANT REPLICATION SLAVE ON *.* TO '<username>'@'%'
GRANT REPLICATION CLIENT ON *.* TO '<username>'@'%'
```
Copy
Conceda o privilégio SELECT em cada tabela replicada:
```
GRANT SELECT ON <schema>.* TO '<username>'@'%'
GRANT SELECT ON <schema>.<table> TO '<username>'@'%'
```
Copy
Para obter mais informações sobre a segurança da replicação, consulte Log binário.

Como administrador de conta Snowflake, execute as seguintes tarefas:
1. Crie um usuário Snowflake com o tipo SERVICE. Crie um banco de dados para armazenar os dados replicados e configure privilégios para que o usuário Snowflake crie objetos nesse banco de dados, concedendo os privilégios USAGE e CREATE SCHEMA.
  CREATE DATABASE <destination_database>; CREATE USER <openflow_user> TYPE=SERVICE COMMENT='Service user for automated access of Openflow'; CREATE ROLE <openflow_role>; GRANT ROLE <openflow_role> TO USER <openflow_user>; GRANT USAGE ON DATABASE <destination_database> TO ROLE <openflow_role>; GRANT CREATE SCHEMA ON DATABASE <destination_database> TO ROLE <openflow_role>; CREATE WAREHOUSE <openflow_warehouse> WITH WAREHOUSE_SIZE = 'MEDIUM' AUTO_SUSPEND = 300 AUTO_RESUME = TRUE; GRANT USAGE, OPERATE ON WAREHOUSE <openflow_warehouse> TO ROLE <openflow_role>;
  Copy
2. Crie um par de chaves seguras (pública e privada). Armazene a chave privada do usuário em um arquivo para fornecer à configuração do conector. Atribua a chave pública ao usuário do serviço Snowflake:
  ALTER USER <openflow_user> SET RSA_PUBLIC_KEY = 'thekey';
  Copy
  Para obter mais informações, consulte par de chaves.
3. Designar um warehouse para o conector usar. Comece com o tamanho do warehouse MEDIUM e, em seguida, experimente o tamanho, dependendo da quantidade de tabelas que estão sendo replicadas e da quantidade de dados transferidos. Os números de tabelas grandes normalmente são mais bem dimensionados com warehouses multicluster, em vez do tamanho do warehouse.

Configuração do conector¶

Como engenheiro de dados, execute as seguintes tarefas para instalar e configurar o conector:

Instalação do conector¶

Navigate to the Openflow overview page. In the Featured connectors section, select View more connectors.
Na página de conectores do Openflow, localize o conector e selecione Add to runtime.
In the Select runtime dialog, select your runtime from the Available runtimes drop-down list and click Add.

Nota

Antes de instalar o conector, verifique se você criou um banco de dados e um esquema no Snowflake para que o conector armazene os dados ingeridos.
Autentique-se na implementação com as credenciais de sua conta Snowflake e selecione Allow quando solicitado para permitir que o aplicativo de tempo de execução acesse sua conta Snowflake. O processo de instalação do conector leva alguns minutos para ser concluído.
Autentique-se no tempo de execução com as credenciais de sua conta Snowflake.

A tela do Openflow é exibida com o grupo de processos do conector adicionado a ela.

Configuração do conector¶

Você pode configurar o conector para os seguintes casos de uso:

Replique um conjunto de tabelas em tempo real¶

Clique com o botão direito do mouse no grupo de processos importado e selecione Parameters.
Preencha os valores dos parâmetros necessários conforme descrito em Parâmetros de fluxo.

Parâmetros de fluxo¶

Comece definindo os parâmetros do contexto de Parâmetros de origem do MySQL e, em seguida, o contexto de Parâmetros de destino do MySQL. Após fazer isso, você pode ativar o conector. O conector deve se conectar ao MySQL e ao Snowflake e começar a funcionar. No entanto, o conector não replica nenhum dado até que as tabelas a serem replicadas sejam explicitamente adicionadas à sua configuração.

Para configurar tabelas específicas para replicação, edite o contexto Parâmetros de ingestão do MySQL. Depois que você aplicar as alterações ao contexto de parâmetros de replicação, a configuração será captada pelo conector e o ciclo de vida da replicação será iniciado para cada tabela.

Contexto dos parâmetros de origem do MySQL¶

Parâmetro	Descrição
URL de conexão do MySQL	O URL do JDBC completo para o banco de dados de origem. O conector usa o driver MariaDB, que é compatível com MySQL e requer o prefixo `jdbc:mariadb` no URL. Se o SSL estiver desativado, o URL de conexão deverá ter o parâmetro `allowPublicKeyRetrieval` definido como `true`. Exemplos: Com SSL ativado: `jdbc:mariadb://example.com:3306` Com SSL desativado: `jdbc:mariadb://example.com:3306?allowPublicKeyRetrieval=true`
Driver MySQL JDBC	O caminho absoluto para o jar do driver MariaDB JDBC. O conector usa o driver MariaDB, que é compatível com MySQL. Marque a caixa de seleção Reference asset para carregar o driver MariaDB JDBC. Exemplo: `/opt/resources/drivers/mariadb-java-client-3.5.2.jar`
Nome de usuário MySQL	O nome de usuário do conector.
Senha MySQL	A senha do conector.

Contexto dos parâmetros de destino do MySQL¶

Parâmetro	Descrição	Obrigatório
Banco de dados de destino	O banco de dados onde os dados serão persistidos. Ele já deve existir no Snowflake. O nome diferencia maiúsculas de minúsculas. Para identificadores sem aspas, forneça o nome em maiúsculas.	Sim
Estratégia de autenticação Snowflake	Ao utilizar: Snowflake Openflow Deployment or BYOC: Use SNOWFLAKE_SESSION_TOKEN. This token is managed automatically by Snowflake. BYOC deployments must have previously configured runtime roles to use SNOWFLAKE_SESSION_TOKEN. BYOC: Alternatively BYOC can use KEY_PAIR as the value for authentication strategy.	Sim
Identificador de conta Snowflake	Ao utilizar: Session Token Authentication Strategy: deve ficar em branco. KEY_PAIR: nome da conta Snowflake formatado como [nome-da-organização]-[nome-da-conta], onde os dados serão persistentes.	Sim
Chave privada Snowflake	Ao utilizar: Session Token Authentication Strategy: deve ficar em branco. KEY_PAIR: deve ser a chave privada RSA utilizada para a autenticação. A chave RSA deve ser formatada de acordo com os padrões PKCS8 e têm os cabeçalhos e rodapés PEM padrão. Observe que é necessário definir o arquivo de chave privada do Snowflake ou a chave privada do Snowflake.	Não
Arquivo de chave privada Snowflake	Ao utilizar: Estratégia de autenticação de token de sessão: o arquivo de chave privada deve estar em branco. KEY_PAIR: carregue o arquivo que contém a chave privada RSA usada para autenticação no Snowflake, formatado de acordo com os padrões PKCS8 e incluindo cabeçalhos e rodapés PEM padrão. A linha do cabeçalho começa com `-----BEGIN PRIVATE`. Para carregar o arquivo de chave privada, marque a caixa de seleção Reference asset.	Não
Senha de chave privada Snowflake	Ao usar Session Token Authentication Strategy: deve ficar em branco. KEY_PAIR: forneça a senha associada ao arquivo de chave privada do Snowflake.	Não
Função Snowflake	Ao usar Estratégia de autenticação de tokens de sessão: use sua função de tempo de execução. Você pode encontrar sua função de tempo de execução na UI do Openflow, navegando para View Details no seu tempo de execução. Estratégia de autenticação de KEY_PAIR: use uma função válida configurada para o usuário do seu serviço.	Sim
Nome de usuário do Snowflake	Ao usar Session Token Authentication Strategy: deve ficar em branco. KEY_PAIR: forneça o nome de usuário usado para se conectar à instância do Snowflake.	Sim
Warehouse Snowflake	Warehouse Snowflake usado para executar consultas.	Sim

Contexto dos parâmetros de ingestão do MySQL¶

Parâmetro	Descrição
Nomes de tabela inclusos	Uma lista de caminhos de tabela separados por vírgulas, incluindo seus esquemas. Exemplo: `public.my_table, other_schema.other_table`
Regex de tabela inclusa	Uma expressão regular para comparar com os caminhos da tabela. Todos os caminhos que corresponderem à expressão serão replicados, e as novas tabelas que corresponderem ao padrão e forem criadas posteriormente também serão incluídas automaticamente. Exemplo: `public\.auto_.*`
Filtrar JSON	Um JSON contendo uma lista de nomes de tabela totalmente qualificados e um padrão regex para nomes de coluna que devem ser incluídos na replicação. Exemplo: `[ {"schema":"public", "table":"table1", "includedPattern":".*name"} ]` incluirá todas as colunas que terminam com `name` em `table1` do esquema `public`.
CRON do cronograma de tarefas de fusão	A expressão CRON que define os períodos em que as operações de fusão do diário para a Tabela de destino serão acionadas. Defina-o como `* * * * * ?` se quiser ter uma fusão contínua ou um cronograma de tempo para limitar o tempo de execução do warehouse. Por exemplo, a cadeia de caracteres `* 0 * * * ?` indica que você deseja agendar fusões de hora em hora por um minuto. A cadeia de caracteres `* 20 14 ? * MON-FRI` indica que você deseja agendar fusões às 2:20 PM de segunda a sexta-feira. Para obter mais informações e exemplos, consulte o tutorial do CronTrigger.
Object Identifier Resolution	Specifies how source object identifiers such as the names of schemas, tables, and columns are stored and queried in Snowflake. This setting specifies that you must use double quotes in SQL queries. Option 1: Default, case-sensitive. For backwards compatibility. Transformation: Case is preserved. For example, `My_Table` remains `My_Table`. Queries: SQL queries must use double quotes to match the exact case for database objects. For example, `SELECT * FROM "My_Table";`. Nota Snowflake recommends using this option if you must preserve source casing for legacy or compatibility reasons. For example, if the source database includes table names that differ in case only–such as `MY_TABLE` and `my_table`–that would result in a name collision when using when using case-insensitive comparisons. Option 2: Recommended, case-insensitive Transformation: All identifiers are converted to uppercase. For example, `My_Table` becomes `MY_TABLE`. Queries: SQL queries are case-insensitive and don’t require SQL double quotes. For example, `SELECT * FROM my_table;` returns the same results as `SELECT * FROM MY_TABLE;`. Nota Snowflake recommends using this option if database objects are not expected to have mixed case names. Importante Do not change this setting after the connector has begun ingesting data. Changing this setting after ingestion has begun breaks the existing ingestion. If you must change this setting, create a new connector instance.

Remova e adicione novamente uma tabela à replicação¶

Para remover uma tabela da replicação, certifique-se de que ela seja removida dos parâmetros Nomes de tabela inclusos ou Regex de tabela inclusa no contexto Parâmetros de replicação.

Se quiser adicionar novamente a tabela à replicação mais tarde, primeiro exclua a tabela de destino correspondente no Snowflake. Após isso, adicione a tabela novamente aos parâmetros Nomes de tabela inclusos ou Regex de tabela inclusa. Isso garante que o processo de replicação comece do zero para a tabela.

Essa abordagem também pode ser usada para se recuperar de um cenário de replicação de tabela com falha.

Replique um subconjunto de colunas em uma tabela¶

O conector pode filtrar os dados replicados por tabela para um subconjunto de colunas configuradas.

Para aplicar filtros a colunas, modifique a propriedade Filtro de coluna no contexto Parâmetros de replicação, adicionando uma matriz de configurações – uma entrada para cada tabela à qual deseja aplicar um filtro.

As colunas podem ser incluídas ou excluídas por nome ou padrão. Você pode aplicar uma única condição por tabela ou combinar várias condições, com as exclusões sempre tendo precedência sobre as inclusões.

O exemplo a seguir mostra os campos disponíveis. Os campos schema e table são obrigatórios. É necessário um ou mais de included, excluded, includedPattern e excludedPattern.

[
    {
        "schema": "<source table schema>",
        "table" : "<source table name>",
        "included": ["<column name>", "<column name>"],
        "excluded": ["<column name>", "<column name>"],
        "includedPattern": "<regular expression>",
        "excludedPattern": "<regular expression>",
    }
]

Copy

Monitore as alterações de dados em tabelas¶

O conector replica não apenas o estado atual dos dados das tabelas de origem, mas também cada estado de cada linha de cada conjunto de alterações. Esses dados são armazenados em tabelas de diário criadas no mesmo esquema da tabela de destino.

Os nomes das tabelas de diário são formatados como: é um número inteiro que aumenta a cada alteração de esquema na tabela de origem. Como resultado, as tabelas de origem que passam por alterações de esquema terão vários tabelas de diário.

Quando uma tabela é removida da replicação e depois adicionada novamente, o valor de <carimbo de data/hora> será alterado e a <geração de esquema> começará novamente a partir de 1.

Importante

O Snowflake recomenda que você não altere a estrutura das tabelas de diário de forma alguma. Elas são usadas pelo conector para atualizar a tabela de destino como parte do processo de replicação.

O conector nunca descarta tabelas de diário, mas faz uso do diário mais recente para cada tabela de origem replicada, lendo apenas fluxos apenas para anexação sobre os diários. Para recuperar o armazenamento, você pode:

Truncar todas as tabelas de diário a qualquer momento.
Descartar as tabelas de diário relacionadas às tabelas de origem que foram removidas da replicação.
Descartar todas as tabelas de diário, exceto as de última geração, para tabelas replicadas ativamente.

Por exemplo, se o conector estiver definido para replicar ativamente a tabela de origem orders e você tiver removido anteriormente a tabela customers da replicação, poderá ter as seguintes tabelas de diário. Nesse caso, você pode descartar todas elas exceto orders_5678_2.

customers_1234_1
customers_1234_2
orders_5678_1
orders_5678_2

Configure o agendamento de tarefas de fusão¶

O conector usa um warehouse para mesclar informações de captura de dados de alteração (CDC) nas tabelas de destino. Essa operação é acionada pelo processador MergeSnowflakeJournalTable. Se não houver novas alterações ou se não houver novos FlowFiles aguardando na fila MergeSnowflakeJournalTable, nenhuma fusão será acionada e o warehouse será suspenso automaticamente.

Para limitar o custo do warehouse e limitar as mesclagens apenas ao horário programado, use a expressão CRON no parâmetro CRON Cronograma da tarefa de mesclagem. Ele controla o fluxo dos FlowFiles que chegam ao processador MergeSnowflakeJournalTable e as mesclagens são acionadas somente em um período de tempo específico. Para obter mais informações sobre agendamento, consulte Estratégia de agendamento.

Execute o fluxo¶

Clique com o botão direito do mouse no plano e selecione Enable all Controller Services.
Clique com o botão direito do mouse no grupo de processos importado e selecione Start. O conector inicia a ingestão de dados.