Installer et configurer Openflow Connector for Oracle¶

Note

Ce connecteur est soumis aux conditions d’utilisation de Snowflake Connector.

Note

L’Openflow Connector for Oracle est également soumis à des conditions de service supplémentaires en plus des conditions de service standard du connecteur. Pour plus d’informations, consultez le Complément du connecteur Openflow pour Oracle.

Cette rubrique décrit les étapes pour installer et configurer le connecteur Openflow Connector for Oracle.

En tant qu’ingénieur des données, effectuez les tâches suivantes pour installer et configurer le connecteur :

Installer le connecteur¶

Pour installer le connecteur, procédez comme suit en tant qu’ingénieur des données :

Accédez à la page d’aperçu d’Openflow. Dans la section Featured connectors, sélectionnez View more connectors.
Sur la page des connecteurs Openflow, trouvez le connecteur et sélectionnez Add to runtime.
Dans la boîte de dialogue Select runtime, sélectionnez votre environnement d’exécution dans la liste déroulante Available runtimes, puis cliquez sur Add.

Note

Avant d’installer le connecteur, assurez-vous que vous avez créé une base de données et un schéma dans Snowflake pour que le connecteur puisse stocker les données ingérées.
Authentifiez-vous au déploiement avec les identifiants de votre compte Snowflake et sélectionnez Allow lorsque vous êtes invité à autoriser l’application d’exécution à accéder à votre compte Snowflake. Le processus d’installation du connecteur prend quelques minutes.
Authentifiez-vous auprès de l’environnement d’exécution avec les identifiants de votre compte Snowflake.

Le canevas Openflow apparaît avec le groupe de processus du connecteur ajouté.

Configuration du connecteur¶

Pour configurer le connecteur, procédez comme suit en tant qu’ingénieur des données :

Cliquez avec le bouton droit de la souris sur le runtime ajouté et sélectionnez Parameters.
Remplissez les valeurs de paramètres requises.

Pour plus d’informations sur les valeurs de paramètres requises, reportez-vous aux sections suivantes :
- Paramètres de la destination Snowflake : Pour établir une connexion avec Snowflake.
- Paramètres d’ingestion Oracle : Pour spécifier les tables à répliquer.
- Paramètres source Oracle : Pour définir la configuration des données téléchargées depuis Oracle.

Paramètres de la destination Snowflake¶


Paramètre	Description	Obligatoire
Base de données de destination	La base de données dans laquelle les données seront conservées. Elle doit déjà exister dans Snowflake. Le nom est sensible à la casse. Pour les identificateurs sans guillemets, indiquez le nom en majuscules.	Oui
Stratégie d’authentification Snowflake	Lorsque vous utilisez : Déploiement Snowflake Openflow ou BYOC : Utilisez SNOWFLAKE_MANAGED_TOKEN. Ce jeton est géré automatiquement par Snowflake. Les déploiements BYOC doivent disposer de rôles d’exécution pour utiliser SNOWFLAKE_MANAGED_TOKEN. BYOC : BYOC peut également utiliser KEY_PAIR comme valeur pour la stratégie d’authentification.	Oui
Identificateur de compte Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : doit être vide. KEY_PAIR : nom du compte Snowflake au format [nom-organisation]-[nom-compte] où les données seront conservées.	Oui
Stratégie de connexion à Snowflake	Lorsque vous utilisez KEY_PAIR, spécifiez la stratégie de connexion à Snowflake : STANDARD (par défaut) : Connectez-vous à l’aide du routage public standard aux services Snowflake. PRIVATE_CONNECTIVITY : Connectez-vous en utilisant des adresses privées associées à la plateforme Cloud prise en charge, comme AWS PrivateLink.	Requis pour BYOC avec KEY_PAIR uniquement ; ignoré dans les autres cas.
Clé privée de Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : doit être vide. KEY_PAIR : Doit correspondre à la clé privée RSA utilisée pour l’authentification. La clé RSA doit être formatée conformément aux normes PKCS8 et posséder des en-têtes et des pieds de page PEM standards. Notez qu’un fichier de clé privée Snowflake ou une clé privée Snowflake doit être défini.	Non
Fichier de clé privée de Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : Le fichier de la clé privée doit être vide. KEY_PAIR : Chargez le fichier qui contient la clé privée RSA utilisée pour l’authentification auprès de Snowflake, formatée conformément aux normes PKCS8 et possédant des en-têtes et des pieds de page PEM standards. La ligne d’en-tête commence par `-----BEGIN PRIVATE`. Pour charger le fichier de la clé privée, cochez la case Reference asset.	Non
Mot de passe de la clé privée de Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : doit être vide. KEY_PAIR : fournissez le mot de passe associé au fichier de la clé privée Snowflake.	Non
Rôle Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : Utilisez le rôle Snowflake attribué au runtime ou le rôle enfant attribué à ce rôle Snowflake. Vous pouvez trouver votre rôle Snowflake d’exécution dans l’UI Openflow, en développant le bouton More Options [⋮] pour votre runtime et en sélectionnant Set Snowflake role. Stratégie d’authentification KEY_PAIR : Utilisez un rôle valide configuré pour votre utilisateur de service.	Oui
Nom d’utilisateur Snowflake	Lorsque vous utilisez : Stratégie d’authentification par jeton de session : doit être vide. KEY_PAIR : Indiquez le nom d’utilisateur utilisé pour vous connecter à l’instance Snowflake.	Oui
Stratégie de valeur surdimensionnée	Détermine la façon dont le connecteur traite les valeurs qui dépassent ses limites de taille interne (16 MB) pendant la réplication. Les valeurs possibles sont les suivantes : Table d’échec (par défaut) : La table est marquée comme en échec définitif et la réplication s’arrête pour cette table. Définir null : La valeur est remplacée par `NULL` dans la table de destination. Utilisez cette option pour éviter les défaillances des tables lorsqu’il est acceptable de perdre des données dans les tables au-delà de la valeur surdimensionnée.	Non
Entrepôt Snowflake	Entrepôt Snowflake utilisé pour exécuter des requêtes.	Oui

Paramètres d’ingestion Oracle¶


Paramètre	Description
Noms des tables incluses	Liste séparée par des virgules des chemins de table entièrement qualifiés. Les tables doivent être spécifiées à l’aide du format de nom de table, de schéma et de base de données entièrement qualifié :DATABASE_NAME.SCHEMA_NAME.TABLE_NAME. Par exemple : `MYPDB.SALES.CUSTOMERS, MYPDB.SALES.ORDERS`
Table incluse Regex	Expression régulière correspondant aux chemins de table pour l’inclusion automatique des tables existantes et nouvelles. Le modèle regex doit correspondre à la convention de dénomination en trois parties :DATABASE_NAME.SCHEMA_NAME.TABLE_NAME. Par exemple : `MYPDB\.SALES\..*` pour faire correspondre toutes les tables du schéma SALES dans la base de données MYPDB.
Filtre de colonne JSON	En option. Un tableau JSON d’objets de filtre spécifiant les colonnes à inclure ou à exclure par table. Pour plus de détails sur la syntaxe et des exemples, consultez Réplication d’un sous-ensemble de colonnes dans une table.
Fusionner la planification des tâches CRON	Une expression CRON pour définir le moment où les opérations de fusion du journal vers la table de destination sont déclenchées. Par exemple, * * * * * ? pour une fusion continue.
Résolution de l’identificateur d’objet	Spécifie la manière dont les identificateurs d’objets sources tels que les schémas, les tables et les noms de colonnes sont stockés et interrogés dans Snowflake. Ce paramètre détermine si vous devez utiliser des guillemets doubles dans les requêtes SQL. Option 1 : Par défaut, insensible à la casse (recommandé). Transformation : Tous les identificateurs sont convertis en majuscules. Par exemple, `My_Table` devient `MY_TABLE`. Requêtes : les requêtes SQL ne sont pas sensibles à la casse et ne nécessitent pas de guillemets doubles SQL. Par exemple `SELECT * FROM my_table;` renvoie les mêmes résultats que `SELECT * FROM MY_TABLE;`. Note Snowflake recommande d’utiliser cette option si les objets de la base de données ne sont pas censés avoir des noms avec une casse mixte. Option 2 : sensible à la casse. Transformation : La casse est préservée. Par exemple, `My_Table` reste `My_Table`. Requêtes : les requêtes SQL doivent utiliser des guillemets doubles pour respecter la casse exacte des objets de base de données. Par exemple, `SELECT * FROM "My_Table";`. Important Ne modifiez pas ce paramètre une fois que l’ingestion du connecteur a commencé. La modification de ce paramètre après le début de l‘ingestion interrompt l’ingestion existante. Si vous devez modifier ce paramètre, créez une nouvelle instance de connecteur.
Stratégie de récupération des instantanés	Détermine la stratégie de récupération du chargement des instantanés : SEQUENTIAL_BY_PRIMARY_KEY (par défaut) : Utilise des lots de taille fixe récupérés séquentiellement par la clé primaire. CONCURRENT_BY_ROWID : Divise les tables en morceaux liés par des plages d’ID de lignes physiques, et récupère chaque morceau en parallèle.

Paramètres source Oracle¶


Paramètre	Description	Obligatoire
URL de connexion Oracle	URL JDBC de la connexion à la DB. L’URL doit spécifier le conteneur cible (PDB ouCDB) qui contient les données à répliquer. Par exemple, `jdbc:oracle:thin@<host>:<port>/YOUR_DB_NAME` où YOUR_DB_NAME est le nom de votre PDB ou CDB. Lorsque SSL est activé, utilisez le protocole TCPS, par exemple `jdbc:oracle:thin:@tcps://<host>:<tcps_port> /YOUR_DB_NAME`. Note Le connecteur fonctionne dans une seule base de données/un seul conteneur. Assurez-vous que l’URL JDBC pointe directement vers le conteneur qui contient les tables à répliquer.	Oui
Nom d’utilisateur Oracle	Nom d’utilisateur de l’utilisateur connecté qui a accès au serveur XStream.	Oui
Mot de passe Oracle	Mot de passe de l’utilisateur connecté ayant accès au serveur XStream.	Oui
Mode SSL Oracle	Contrôle le chiffrement SSL pour les connexions à la base de données Oracle. DISABLED, qui est la valeur par défaut : Se connecter sans SSL. VERIFY_CA : Se connecter avec SSL . Vérifie qu’une autorité de certification de confiance a émis le certificat de serveur. VERIFY_IDENTITY : Se connecter avec SSL . Vérifie que le certificat CA et que le nom d’hôte du serveur correspondent à l’objet du certificat. Lorsqu’il est défini sur VERIFY_CA ou VERIFY_IDENTITY, vous devez également fournir le paramètre de nom de fichier Wallet Oracle.	Oui
Nom de fichier Wallet Oracle	Téléchargez le fichier qui contient le fichier Wallet de connexion automatique Oracle (`cwallet.sso`). Le Wallet doit contenir le certificat du serveur de confiance pour les connexions SSL. Pour des informations sur la création du wallet, voir Configurer les connexions SSL (facultatif).	Requis lorsque le mode SSL n’est pas DISABLED
Multiplicateur de processeur de base de données Oracle	Facteur de licence par cœur de processeur, tel que décrit dans le tableau des facteurs de licence par cœur de processeur d’Oracle	Requis pour la licence intégrée uniquement
Cœurs de processeur de base de données Oracle	Le nombre de cœurs de processeur dans votre base de données Oracle.	Requis pour la licence intégrée uniquement
Accusé de réception de la facturation XStream	Confirmation du contrat de licence	Requis pour la licence intégrée uniquement
Nom du serveur sortant XStream	Le nom du serveur XStream qui doit déjà exister dans Oracle.	Oui
URL du serveur sortant XStream	L’URL JDBC de la connexion à la base de données pour XStream, doit utiliser le pilote OCI. Par exemple, `jdbc:oracle:oci:@<host>:<port>/SID`. Lorsque SSL est activé, utilisez le protocole TCPS, par exemple `jdbc:oracle:oci:@tcps://<host>:<tcps_port>/SID`. Note Lorsque le mode SSL est activé, le connecteur ajoute automatiquement `SSL_SERVER_DN_MATCH` et``MY_WALLET_DIRECTORY`` à l’URL XStream. Il n’est pas nécessaire de les inclure manuellement.	Oui

Redémarrer la réplication de table¶

Une table à l’état FAILED, par exemple, en raison d’une clé primaire manquante ou d’un changement de schéma non pris en charge, ne redémarre pas automatiquement. Si une table passe à l’état FAILED ou si vous devez redémarrer la réplication à partir de zéro, utilisez la procédure suivante pour supprimer et ajouter à nouveau la table à la réplication.

Note

Si l’échec a été causé par un problème dans la table source, tel qu’une clé primaire manquante, résolvez ce problème dans la base de données source avant de continuer.

Supprimez la table des paramètres de flux. Dans le contexte Paramètres d’ingestion, supprimez la table dans les Included Table Names ou modifiez le Included Table Regex de sorte que la table n’a plus aucune correspondance.
Vérifiez que la table a été supprimée :
1. Dans le canevas de l’environnement d’exécution Openflow, cliquez avec le bouton droit de la souris sur un groupe de processeurs et choisissez Controller Services.
2. Dans la table répertoriant les services du contrôleur, recherchez la ligne Table State Store, cliquez sur les trois points verticaux sur le côté droit de la ligne, puis choisissez View State.
Important

Vous devez attendre que l’état de la table soit entièrement supprimé de cette liste avant de poursuivre. Ne continuez pas tant que cette modification de la configuration n’est pas terminée.
Nettoyez la destination. Une fois que l’état de la table indique qu’elle est entièrement supprimés, DROP manuellement la table de destination dans Snowflake. Notez que le connecteur ne remplacera pas une table de destination existante pendant la phase de l’instantané. Si la table existe toujours, la réplication échouera à nouveau. En option, la table et le flux de journal peuvent également être supprimés s’ils ne sont plus nécessaires.
Ajoutez de nouveau la table : Mettez à jour les paramètres Included Table Names ou Included Table Regex pour inclure à nouveau la table.
Vérifiez le redémarrage. Vérifiez le Table State Store en utilisant les instructions données précédemment. L’état de la table doit apparaître avec le statut NEW, puis SNAPSHOT_REPLICATION et pour finir INCREMENTAL_REPLICATION.

Répliquer un sous-ensemble de colonnes dans une table¶

Le connecteur peut filtrer les données répliquées par table sur un sous-ensemble de colonnes configurées. Les colonnes de clé primaire sont toujours incluses, quelles que soient les exclusions.

Pour appliquer des filtres de colonnes, définissez le paramètre Column Filter JSON dans le contexte Paramètres d’ingestion sur un tableau JSON d’objets de filtre, à raison d’un par table que vous souhaitez filtrer.

Les colonnes peuvent être incluses ou exclues par leur nom ou par un modèle d’expression régulière. Vous pouvez appliquer une seule condition par table ou combiner plusieurs conditions, les exclusions ayant toujours la priorité sur les inclusions.

Syntaxe¶

Chaque objet du tableau identifie une table et spécifie les colonnes à inclure ou à exclure. Étant donné que ce connecteur utilise des noms entièrement qualifiés en trois parties (base de données, schéma et table), chaque objet peut inclure un champ database ou databasePattern en plus des champs de schéma et de table.

[
    {
        "database": "<database>" | "databasePattern": "<regex>",
        "schema": "<schema>" | "schemaPattern": "<regex>",
        "table": "<table>" | "tablePattern": "<regex>",
        "included": ["<column>", "<column>"],
        "excluded": ["<column>", "<column>"],
        "includedPattern": "<regex>",
        "excludedPattern": "<regex>"
    }
]

Les règles suivantes s’appliquent :

Utilisez database, schema et table pour une correspondance exacte des noms, ou databasePattern, schemaPattern et tablePattern pour la correspondance regex. Vous ne pouvez pas utiliser à la fois un champ et sa variante de modèle dans le même objet (par exemple, schema et``schemaPattern`` ne peuvent pas apparaître tous les deux).
Au moins un des champs included, excluded,``includedPattern`` ou excludedPattern doit être indiqué.
Lorsque des filtres d’inclusion et d’exclusion sont spécifiés, les exclusions ont la priorité.
Lorsque plusieurs filtres correspondent à la même table, le dernier filtre correspondant est utilisé, les correspondances exactes prévalant sur les filtres basés sur des modèles.
La valeur peut être un tableau d’objets pour appliquer différents filtres à différentes tables.

Exemples¶

Incluez des colonnes spécifiques par leur nom :

[
    {
        "database": "my_db",
        "schema": "dbo",
        "table": "orders",
        "included": ["account_id", "status", "created_at"]
    }
]

Exclure des colonnes spécifiques par leur nom :

[
    {
        "database": "my_db",
        "schema": "dbo",
        "table": "orders",
        "excluded": ["internal_note", "debug_flag"]
    }
]

Combiner un modèle d’inclusion avec une exclusion spécifique (par exemple, inclure toutes les colonnes d’e-mail sauf admin_email) :

[
    {
        "database": "my_db",
        "schema": "dbo",
        "table": "contacts",
        "includedPattern": ".*_email",
        "excluded": ["admin_email"]
    }
]

Combiner un modèle de base de données avec un nom de schéma et de table exact pour appliquer un filtre entre les bases de données :

[
    {
        "databasePattern": "prod_.*",
        "schema": "dbo",
        "table": "customers",
        "excluded": ["internal_note"]
    }
]

Transmettre plusieurs objets de filtre pour appliquer différentes règles à différentes tables :

[
    {"database": "my_db", "schema": "dbo", "table": "orders", "included": ["account_id", "status"]},
    {"database": "my_db", "schema": "dbo", "table": "customers", "excludedPattern": ".*_internal"}
]

Exécutez le flux¶

Cliquez avec le bouton droit de la souris sur l’avion et sélectionnez Enable all Controller Services.
Cliquez avec le bouton droit de la souris sur le groupe de processus importé et sélectionnez Start. Le connecteur démarre l’ingestion des données.

Prochaines étapes¶

(Facultatif) Configurer la réplication incrémentielle sans instantanés.
Contrôler le flux.