Instalação e configuração do Openflow Connector for Oracle¶

Nota

O conector está sujeito aos Termos do conector Snowflake.

Nota

O Openflow Connector for Oracle também está sujeito a termos de serviço adicionais além dos termos de serviço padrão do conector. Para obter mais informações, consulte o Adendo do Openflow Connector para Oracle.

Este tópico descreve as etapas para instalar e configurar o conector Openflow Connector for Oracle.

Como engenheiro de dados, execute as seguintes tarefas para instalar e configurar o conector:

Instalação do conector¶

Para instalar o conector, faça o seguinte como engenheiro de dados:

Navegue até a página de visão geral do Openflow. Na seção Featured connectors, selecione View more connectors.
Na página de conectores do Openflow, localize o conector e selecione Add to runtime.
Na caixa de diálogo Select runtime, selecione seu tempo de execução na lista suspensa Available runtimes e clique em Add.

Nota

Antes de instalar o conector, verifique se você criou um banco de dados e um esquema no Snowflake para que o conector armazene os dados ingeridos.
Autentique-se na implementação com as credenciais de sua conta Snowflake e selecione Allow quando solicitado para permitir que o aplicativo de tempo de execução acesse sua conta Snowflake. O processo de instalação do conector leva alguns minutos para ser concluído.
Autentique-se no tempo de execução com as credenciais de sua conta Snowflake.

A tela do Openflow é exibida com o grupo de processos do conector adicionado a ela.

Configuração do conector¶

Para configurar o conector, faça o seguinte como engenheiro de dados:

Clique com o botão direito do mouse no tempo de execução adicionado e selecione Parameters.
Preencha os valores de parâmetro necessários.

Para obter mais informações sobre os valores de parâmetro necessários, consulte as seções a seguir:
- Parâmetros de destino do Snowflake: utilizado para estabelecer conexão com o Snowflake.
- Parâmetros de ingestão do Oracle: utilizado para especificar as tabelas a serem replicadas.
- Parâmetros de origem Oracle: utilizado para definir a configuração dos dados baixados do Oracle.

Parâmetros de destino do Snowflake¶


Parâmetro	Descrição	Obrigatório
Banco de dados de destino	The database where data is persisted. It must already exist in Snowflake. The name is case-sensitive. For unquoted identifiers, provide the name in uppercase.	Sim
Destination Schema Pattern	A pattern for the names of destination schemas where data is persisted. The connector creates the schemas if they don’t exist. You can customize the pattern per ingested table using these optional variables: `${source.database.name}`: a source table’s database. `${source.schema.name}`: a source table’s schema. `${source.table.name}`: a source table’s name. For example, for a table with the qualified name `source_db.tenant_a.data`, the pattern `prefix_${source.database.name}_${source.schema.name}` evaluates to `prefix_source_db_tenant_a`. To ingest all tables into a single schema, provide a schema name without any variables, like `destination_schema`. Importante Don’t change this setting after the connector has begun ingesting data. Changing this setting after ingestion has begun breaks the existing ingestion. If you must change this setting, create a new connector instance.	Sim
Estratégia de autenticação Snowflake	Ao utilizar: Implantação do Snowflake OpenFlow ou BYOC: Use SNOWFLAKE_MANAGED_TOKEN. O Snowflake gerencia este token automaticamente. As implantações BYOC já devem ter configurado as funções de tempo de execução para usar SNOWFLAKE_MANAGED_TOKEN. BYOC: o BYOC também pode usar KEY_PAIR como valor da estratégia de autenticação.	Sim
Identificador de conta Snowflake	Ao utilizar: Session Token Authentication Strategy: deve ficar em branco. KEY_PAIR: Snowflake account name formatted as [organization-name]-[account-name] where data is persisted.	Sim
Estratégia de conexão com o Snowflake	Ao usar KEY_PAIR, especifique a estratégia para conexão com o Snowflake: STANDARD (padrão): conecte-se aos serviços Snowflake usando o roteamento público padrão. PRIVATE_CONNECTIVITY: conecte-se usando endereços privados associados à plataforma de nuvem de suporte, como AWS PrivateLink.	Necessário somente para BYOC com KEY_PAIR; caso contrário, será ignorado.
Chave privada Snowflake	Ao utilizar: Session Token Authentication Strategy: deve ficar em branco. KEY_PAIR: deve ser a chave privada RSA utilizada para a autenticação. A chave RSA deve ser formatada de acordo com os padrões PKCS8 e têm os cabeçalhos e rodapés PEM padrão. Observe que é necessário definir o arquivo de chave privada do Snowflake ou a chave privada do Snowflake.	Não
Arquivo de chave privada Snowflake	Ao utilizar: Estratégia de autenticação de token de sessão: o arquivo de chave privada deve estar em branco. KEY_PAIR: carregue o arquivo que contém a chave privada RSA usada para autenticação no Snowflake, formatada de acordo com as normas PKCS8 e incluindo cabeçalhos e rodapés PEM padrão. A linha do cabeçalho começa com `-----BEGIN PRIVATE`. Para carregar o arquivo de chave privada, marque a caixa de seleção Reference asset.	Não
Senha de chave privada Snowflake	Ao usar Session Token Authentication Strategy: deve ficar em branco. KEY_PAIR: forneça a senha associada ao arquivo de chave privada do Snowflake.	Não
Função Snowflake	Ao usar Estratégia de autenticação de tokens de sessão: use sua função de tempo de execução. Use a função do Snowflake designada ao tempo de execução ou a função filha concedida a esta função do Snowflake. Você pode encontrar sua função do Snowflake do tempo de execução na UI do Openflow, expandindo o botão More Options [⋮] do seu tempo de execução e selecionando Set Snowflake role. Estratégia de autenticação de KEY_PAIR: use uma função válida configurada para o usuário do seu serviço.	Sim
Nome de usuário do Snowflake	Ao usar Session Token Authentication Strategy: deve ficar em branco. KEY_PAIR: forneça o nome de usuário usado para se conectar à instância do Snowflake.	Sim
Estratégia de valores excedentes	Determina como o conector lida com valores que excedem os limites de tamanho internos (16 MB) durante a replicação. Os valores possíveis são: Fail Table (padrão): a tabela é marcada como falha permanente, e a replicação é interrompida para essa tabela. Set Null: o valor é substituído por `NULL` na tabela de destino. Use esta opção para impedir falhas na tabela quando for aceitável perder dados em tabelas que ultrapassem o valor excedente.	Não
Warehouse Snowflake	Warehouse Snowflake usado para executar consultas.	Sim

Parâmetros de ingestão do Oracle¶


Parâmetro	Descrição
Nomes de tabela inclusos	Lista separada por vírgulas de caminhos de tabela totalmente qualificados. As tabelas devem ser especificadas usando o formato de nome de banco de dados, esquema e tabela totalmente qualificado: DATABASE_NAME.SCHEMA_NAME.TABLE_NAME. Por exemplo: `MYPDB.SALES.CUSTOMERS, MYPDB.SALES.ORDERS`
Regex de tabela inclusa	Uma expressão regular para corresponder aos caminhos da tabela para inclusão automática de tabelas existentes e novas. O padrão regex deve corresponder à convenção de nomenclatura de três partes: DATABASE_NAME.SCHEMA_NAME.TABLE_NAME. Por exemplo: `MYPDB\.SALES\..*` para corresponder a todas as tabelas no esquema SALES dentro do banco de dados MYPDB.
Filtro de coluna JSON	Opcional. Uma matriz JSON de objetos de filtro que especifica quais colunas incluir ou excluir por tabela. Para conferir detalhes e exemplos de sintaxe, consulte Replicar um subconjunto de colunas em uma tabela.
CRON do cronograma de tarefas de fusão	Uma expressão CRON para definir quando as operações de mesclagem do diário para a tabela de destino são acionadas. Por exemplo, * * * * * ? para mesclagem contínua.
Resolução do identificador do objeto	Especifica como os identificadores de objetos de origem, como esquemas, tabelas e nomes de colunas, são armazenados e consultados no Snowflake. Essa configuração determina se você deve usar aspas duplas em consultas SQL. Opção 1: padrão, sem distinção entre maiúsculas e minúsculas (recomendado). Transformação: Todos os identificadores são convertidos em maiúsculas. Por exemplo, `My_Table` torna-se `MY_TABLE`. Consultas: as consultas SQL não diferenciam maiúsculas de minúsculas e não exigem as aspas duplas doSQL. Por exemplo `SELECT * FROM my_table;` retorna os mesmos resultados que `SELECT * FROM MY_TABLE;`. Nota A Snowflake recomenda usar esta opção se não for esperado que os objetos de banco de dados tenham nomes que misturem letras maiúsculas e minúsculas. Opção 2: com distinção entre maiúsculas e minúsculas. Transformação: As letras maiúsculas/minúsculas são preservadas. Por exemplo, `My_Table` continua sendo `My_Table`. Consultas: consultas SQL devem usar aspas duplas para corresponder exatamente ao uso de maiúsculas/minúsculas dos objetos de banco de dados. Por exemplo, `SELECT * FROM "My_Table";`. Importante Não altere esta configuração após o início da ingestão do conector. Se esta configuração for alterada após o início da ingestão, ela será interrompida. Se você precisar alterar essa configuração, crie uma nova instância do conector.
Estratégia de busca de instantâneos	Determina a estratégia de busca de carregamento de instantâneo: SEQUENTIAL_BY_PRIMARY_KEY (padrão): usa lotes de tamanho fixo recuperados sequencialmente por chave primária. CONCURRENT_BY_ROWID: divide as tabelas em blocos delimitados por intervalos de IDs de linha físicos e recupera cada bloco em paralelo.

Parâmetros de origem Oracle¶


Parâmetro	Descrição	Obrigatório
URL da conexão Oracle	URL JDBC da conexão de banco de dados com o DB. O URL deve especificar o contêiner de destino (PDB ou CDB) que contém os dados a serem replicados. Por exemplo, `jdbc:oracle:thin@<host>:<port>/YOUR_DB_NAME` em que YOUR_DB_NAME é o nome do seu PDB ou CDB. Quando SSL estiver habilitado, use o protocolo TCPS, por exemplo, `jdbc:oracle:thin:@tcps://<host>:<tcps_port>/YOUR_DB_NAME`. Nota O conector funciona dentro de um único banco de dados/container. Certifique-se de que o URL JDBC aponte diretamente para o contêiner que contém as tabelas a serem replicadas.	Sim
Nome de usuário Oracle	Nome do usuário de conexão que tem acesso ao XStream Server.	Sim
Senha Oracle	Senha do usuário de conexão que tem acesso ao XStream Server.	Sim
Modo SSL Oracle	Controla a criptografia SSL para conexões com o banco de dados Oracle. DISABLED, que é o padrão: conexão sem SSL. VERIFY_CA: conexão com SSL. Verifica se uma autoridade de certificação confiável emitiu o certificado do servidor. VERIFY_IDENTITY: conexão com SSL. Verifica o certificado de CA e se o nome de host do servidor corresponde à entidade do certificado. Quando definido como VERIFY_CA ou VERIFY_IDENTITY, você também deve fornecer o parâmetro Oracle Wallet Filename.	Sim
Oracle Wallet Filename	Carregue o arquivo que contém o arquivo da wallet de login automático no Oracle (`cwallet.sso`). A wallet deve conter o certificado de servidor confiável para conexões SSL. Para obter informações sobre como criar a wallet, consulte Configurar conexões SSL (opcional).	Obrigatório quando o modo SSL não é DISABLED
Multiplicador de processador do banco de dados Oracle	Fator de licenciamento de núcleo do processador, conforme descrito na tabela de fatores de núcleo do processador Oracle	Obrigatório apenas para licença incorporada
Núcleos do processador do banco de dados Oracle	O número de núcleos do processador em seu banco de dados Oracle.	Obrigatório apenas para licença incorporada
Confirmação de cobrança XStream	Uma confirmação do contrato de licenciamento	Obrigatório apenas para licença incorporada
Nome do servidor de saída XStream	O nome do servidor XStream que já deve existir no Oracle.	Sim
URL do servidor de saída XStream	URL JDBC da conexão de banco de dados para XStream, deve usar o driver OCI. Por exemplo, `jdbc:oracle:oci:@<host>:<port>/SID`. Quando SSL estiver habilitado, use o protocolo TCPS, por exemplo, `jdbc:oracle:oci:@tcps://<host>:<tcps_port>/SID`. Nota Quando o modo SSL estiver habilitado, o conector adicionará automaticamente `SSL_SERVER_DN_MATCH` e `MY_WALLET_DIRECTORY` ao URL do XStream. Você não precisa incluí-los manualmente.	Sim

Reiniciar a replicação da tabela¶

Uma tabela no estado FAILED, por exemplo, devido a uma chave primária ausente ou alteração de esquema incompatível, não é reiniciada automaticamente. Se uma tabela entrar no estado FAILED, ou se você precisar reiniciar a replicação do zero, use o procedimento a seguir para remover e adicionar novamente a tabela à replicação.

Nota

Se a falha foi causada por um problema na tabela de origem, como a falta de uma chave primária, resolva esse problema no banco de dados de origem antes de continuar.

Remove the table from replication, using one of the following methods:
- Add the table to the Re-snapshot Table Exclusions parameter to temporarily exclude it from replication. This is convenient when the table is matched by an Included Table Regex that you don’t want to change.
- In the Ingestion Parameters context, either remove the table from Included Table Names or modify the Included Table Regex so the table is no longer matched.
Verifique se a tabela foi removida:
1. Na tela do tempo de execução do Openflow, clique com o botão direito do mouse em um grupo de processadores e escolha Controller Services.
2. Na tabela com a lista de serviços do controlador, localize a linha Table State Store, clique nos três pontos verticais à direita da linha e escolha View State.
Importante

É necessário aguardar até que o estado da tabela seja totalmente removido da lista antes de prosseguir. Não continue até que esta alteração de configuração tenha sido concluída.
Limpe o destino: assim que o estado da tabela for exibido como totalmente removido, execute DROP manualmente da tabela de destino no Snowflake. Observe que o conector não substituirá uma tabela de destino existente durante a fase do instantâneo. Se a tabela ainda existir, a replicação falhará novamente. Opcionalmente, a tabela de diário e o fluxo também podem ser removidos se não forem mais necessários.
Re-add the table by reversing the change you made in the first step: either remove the table from Re-snapshot Table Exclusions, or add it back to Included Table Names or Included Table Regex. The connector then re-snapshots the table.
Verifique a reinicialização: consulte Table State Store seguindo as instruções já apresentadas. O estado da tabela deve aparecer com status NEW, depois passar para SNAPSHOT_REPLICATION e, por fim, INCREMENTAL_REPLICATION.

Replique um subconjunto de colunas em uma tabela¶

O conector pode filtrar os dados replicados por tabela para um subconjunto de colunas configuradas. As colunas de chave primária são sempre incluídas, independentemente das exclusões.

Para aplicar filtros de coluna, defina o parâmetro Column Filter JSON no contexto de parâmetros de ingestão para uma matriz JSON de objetos de filtro, um por tabela que você deseja filtrar.

As colunas podem ser incluídas ou excluídas por nome ou por padrão de expressão regular. Você pode aplicar uma única condição por tabela ou combinar várias condições, com as exclusões sempre tendo precedência sobre as inclusões.

Sintaxe¶

Cada objeto da matriz identifica uma tabela e especifica quais colunas incluir ou excluir. Como este conector usa nomes totalmente qualificados de três partes (banco de dados, esquema e tabela), cada objeto pode incluir um campo database ou databasePattern, além dos campos de esquema e tabela.

[
    {
        "database": "<database>" | "databasePattern": "<regex>",
        "schema": "<schema>" | "schemaPattern": "<regex>",
        "table": "<table>" | "tablePattern": "<regex>",
        "included": ["<column>", "<column>"],
        "excluded": ["<column>", "<column>"],
        "includedPattern": "<regex>",
        "excludedPattern": "<regex>"
    }
]

As seguintes regras são aplicáveis:

Use database, schema e table para correspondência exata de nome, ou databasePattern, schemaPattern e tablePattern para correspondência de regex. Não é possível usar um campo e sua variante de padrão no mesmo objeto (por exemplo, ambos schema e schemaPattern não podem aparecer).
É necessário inserir pelo menos um destes: included, excluded, includedPattern ou excludedPattern.
Quando ambos os filtros incluídos e excluídos são especificados, as exclusões têm precedência.
Quando vários filtros correspondem à mesma tabela, o último filtro correspondente é usado, com precedência das correspondências exatas sobre os filtros baseados em padrão.
O valor pode ser uma matriz de objetos para aplicar filtros diferentes a tabelas distintas.

Exemplos¶

Incluir colunas específicas por nome:

[
    {
        "database": "my_db",
        "schema": "dbo",
        "table": "orders",
        "included": ["account_id", "status", "created_at"]
    }
]

Excluir colunas específicas por nome:

[
    {
        "database": "my_db",
        "schema": "dbo",
        "table": "orders",
        "excluded": ["internal_note", "debug_flag"]
    }
]

Combinar um padrão de inclusão com uma exclusão específica (por exemplo, incluir todas as colunas de e-mail exceto admin_email):

[
    {
        "database": "my_db",
        "schema": "dbo",
        "table": "contacts",
        "includedPattern": ".*_email",
        "excluded": ["admin_email"]
    }
]

Misturar um padrão de banco de dados com um nome de esquema e tabela exato para aplicar um filtro a vários bancos de dados:

[
    {
        "databasePattern": "prod_.*",
        "schema": "dbo",
        "table": "customers",
        "excluded": ["internal_note"]
    }
]

Passar vários objetos de filtro para aplicar regras diferentes a tabelas distintas:

[
    {"database": "my_db", "schema": "dbo", "table": "orders", "included": ["account_id", "status"]},
    {"database": "my_db", "schema": "dbo", "table": "customers", "excludedPattern": ".*_internal"}
]

Execute o fluxo¶

Clique com o botão direito do mouse no plano e selecione Enable all Controller Services.
Clique com o botão direito do mouse no grupo de processos importado e selecione Start. O conector inicia a ingestão de dados.

Próximos passos¶

(Opcional) Configurar replicação incremental sem instantâneos.
Monitorar o fluxo.