Configure o Openflow Connector para o Microsoft Dataverse¶

Nota

O conector está sujeito aos Termos do conector Snowflake.

Este tópico descreve as etapas para configurar o Openflow Connector para o Microsoft Dataverse.

Pré-requisitos¶

Certifique-se de ter revisado Sobre a Openflow Connector for Microsoft Dataverse.
Certifique-se de ter revisado Configuração do Openflow - BYOC ou Configuração do Openflow – Implantações do Snowflake.
Se você usa Openflow - Snowflake Deployments, garanta que já tenha revisado a configuração dos domínios necessários e concedido acesso a esses domínios para o conector Microsoft Dataverse.

Obtenha as credenciais¶

Como administrador Microsoft Dataverse, execute as seguintes etapas:

Verifique se você tem um ambiente Dataverse para trabalhar e se tem acesso a esse ambiente por meio de https://admin.powerplatform.microsoft.com/.
Certifique-se de ter um aplicativo registrado no Microsoft Entra ID em portal.azure.com. Este aplicativo deve ter acesso ao locatário para o qual nosso ambiente do Dataverse está disponível. Para registrar o aplicativo, siga este guia.
Gere e armazene o ClientID e segredo de cliente nesse aplicativo.
Acesse o Centro de administração do Power Apps e configure seu ambiente do Dataverse para ser acessado por meio de aplicativos registrados anteriormente. Para isso, acesse Manage » Environments e selecione o ambiente a ser configurado. Depois vá para Settings » Users & permissions » Application users. Aplicativos criados anteriormente devem ser adicionados e receber os privilégios necessários para ler dados do Microsoft Dataverse.
Copie e salve o URL do ambiente de Dataverse selecionado em https://admin.powerplatform.microsoft.com/.

Configure a conta Snowflake¶

Como administrador de conta Snowflake, execute as seguintes tarefas:

Crie um usuário Snowflake com o tipo SERVICE.

Crie um banco de dados e um esquema para armazenar os dados replicados e configure privilégios para que o usuário do serviço crie tabelas no esquema de destino, concedendo os privilégios USAGE e CREATE TABLE.

CREATE DATABASE <destination_database>;
CREATE SCHEMA <destination_database>.<destination_schema>;
CREATE USER <openflow_user> TYPE=SERVICE COMMENT='Service user for automated access of Openflow';
CREATE ROLE <openflow_role>;
GRANT ROLE <openflow_role> TO USER <openflow_user>;
GRANT USAGE ON DATABASE <destination_database> TO ROLE <openflow_role>;
GRANT USAGE ON SCHEMA <destination_database>.<destination_schema> TO ROLE <openflow_role>;
GRANT CREATE TABLE ON SCHEMA <destination_database>.<destination_schema> TO ROLE <openflow_role>;
CREATE WAREHOUSE <openflow_warehouse>
     WITH
         WAREHOUSE_SIZE = 'SMALL'
         AUTO_SUSPEND = 300
         AUTO_RESUME = TRUE;
GRANT USAGE, OPERATE ON WAREHOUSE <openflow_warehouse> TO ROLE <openflow_role>;

Crie um par de chaves seguras (pública e privada). Armazene a chave privada do usuário em um arquivo para fornecer à configuração do conector. Atribua a chave pública ao usuário do serviço Snowflake:
```
ALTER USER <openflow_user> SET RSA_PUBLIC_KEY = 'thekey';
```
Para obter mais informações, consulte par de chaves.

A Snowflake recomenda enfaticamente essa etapa. Configure um gerenciador de segredos compatível com o Openflow, por exemplo, AWS, Azure e Hashicorp, e armazene as chaves públicas e privadas no armazenamento de segredos.

Nota

Se, por algum motivo, você não quiser usar um gerenciador de segredos, será responsável por proteger os arquivos de chave pública e chave privada usados para autenticação de pares de chaves de acordo com as políticas de segurança de sua organização.
1. Depois que o gerenciador de segredos estiver configurado, determine como você se autenticará nele. No AWS, é recomendável que você use a função de instância EC2 associada ao Openflow, pois dessa forma nenhum outro segredo precisa ser mantido.
2. No Openflow, configurar um provedor de parâmetros associado a este Secrets Manager, a partir do menu de configuração no canto superior direito. Navegue até Controller Settings » Parameter Provider e depois buscar seus valores de parâmetro.
3. Nesse momento, todas as credenciais podem ser referenciadas com os caminhos de parâmetros associados e nenhum valor sensível precisa ser mantido no Openflow.
Se qualquer outro usuário Snowflake precisar de acesso aos documentos e tabelas brutos ingeridos pelo conector (por exemplo, para processamento personalizado no Snowflake), conceda a esses usuários a função criada na etapa 1.
Designar um warehouse para o conector usar. Conceda o privilégio USAGE no warehouse à função criada anteriormente. Comece com o menor tamanho de warehouse e, em seguida, experimente o tamanho, dependendo do número de tabelas sendo replicadas e da quantidade de dados transferidos. Os números de tabelas grandes normalmente são mais bem dimensionados com warehouses multicluster, em vez de warehouses maiores.

Configuração do conector¶

Como engenheiro de dados, execute as seguintes tarefas para instalar e configurar o conector:

Instalação do conector¶

Para instalar o conector, faça o seguinte como engenheiro de dados:

Navegue até a página de visão geral do Openflow. Na seção Featured connectors, selecione View more connectors.
Na página de conectores do Openflow, localize o conector e selecione Add to runtime.
Na caixa de diálogo Select runtime, selecione seu tempo de execução na lista suspensa Available runtimes e clique em Add.

Nota

Antes de instalar o conector, verifique se você criou um banco de dados e um esquema no Snowflake para que o conector armazene os dados ingeridos.
Autentique-se na implementação com as credenciais de sua conta Snowflake e selecione Allow quando solicitado para permitir que o aplicativo de tempo de execução acesse sua conta Snowflake. O processo de instalação do conector leva alguns minutos para ser concluído.
Autentique-se no tempo de execução com as credenciais de sua conta Snowflake.

A tela do Openflow é exibida com o grupo de processos do conector adicionado a ela.

Configuração do conector¶

Clique com o botão direito do mouse no grupo de processos importado e selecione Parameters.
Preencha os valores dos parâmetros necessários conforme descrito em Parâmetros de fluxo.

Parâmetros de fluxo¶

Esta seção descreve os parâmetros de fluxo que podem ser configurados com base nos contextos de parâmetros a seguir:

Parâmetros da fonte do Dataverse: usado para estabelecer conexão com o Dataverse.
Parâmetros de destino do Dataverse: usado para estabelecer conexão com o Snowflake.
Parâmetros de ingestão do Dataverse: usado para definir a configuração dos dados baixados do Dataverse.

Parâmetros de origem do Dataverse¶


Parâmetro	Descrição
URL do ambiente do Dataverse de origem	O principal identificador de um sistema de origem para buscar dados. O URL indica um namespace onde existem tabelas do Dataverse. Ele também permite que você crie um parâmetro de escopo para OAuth.
ID do locatário de origem	ID de locatário do Microsoft Azure. É usado para criar URLs OAuth. O ambiente do Microsoft Dataverse deve pertencer a este locatário.
ID do cliente OAuth de origem	Cliente do Microsoft Azure ID usado para acessar a API do Microsoft Dataverse. A API do Microsoft Dataverse Web usa a autenticação OAuth para proteger o acesso, e o conector usa o fluxo de credenciais do cliente. Para saber mais sobre o ID de cliente e como encontrá-lo no Microsoft Dataverse, consulte ID do aplicativo (ID do cliente).
Segredo do cliente de origem OAuth	Segredo do cliente do Microsoft Azure usado para acessar a API do Microsoft Dataverse. A API do Microsoft Dataverse Web usa a autenticação OAuth para proteger o acesso, e o conector usa o fluxo de credenciais do cliente. Para saber mais sobre o segredo do cliente e como encontrá-lo no Microsoft Entra, consulte Certificados e segredos.

Parâmetros de destino do Dataverse¶


Parâmetro	Descrição	Obrigatório
Banco de dados de destino	O banco de dados onde os dados serão persistidos. Ele já deve existir no Snowflake. O nome diferencia maiúsculas de minúsculas. Para identificadores sem aspas, forneça o nome em maiúsculas.	Sim
Esquema de destino	O esquema onde os dados serão persistidos, que já deve existir no Snowflake. O nome diferencia maiúsculas de minúsculas. Para identificadores sem aspas, forneça o nome em maiúsculas. Veja os exemplos a seguir: `CREATE SCHEMA SCHEMA_NAME` ou `CREATE SCHEMA schema_name`: use `SCHEMA_NAME` `CREATE SCHEMA "schema_name"` ou `CREATE SCHEMA "SCHEMA_NAME"`: use `schema_name` ou `SCHEMA_NAME`, respectivamente	Sim
Estratégia de autenticação Snowflake	Ao utilizar: Implantação do Snowflake OpenFlow ou BYOC: Use SNOWFLAKE_MANAGED_TOKEN. O Snowflake gerencia este token automaticamente. As implantações BYOC já devem ter configurado as funções de tempo de execução para usar SNOWFLAKE_MANAGED_TOKEN. BYOC: o BYOC também pode usar KEY_PAIR como valor da estratégia de autenticação.	Sim
Identificador de conta Snowflake	Ao utilizar: Session Token Authentication Strategy: deve ficar em branco. KEY_PAIR: nome da conta Snowflake formatado como [nome-da-organização]-[nome-da-conta], onde os dados serão persistentes.	Sim
Chave privada Snowflake	Ao utilizar: Session Token Authentication Strategy: deve ficar em branco. KEY_PAIR: deve ser a chave privada RSA utilizada para a autenticação. A chave RSA deve ser formatada de acordo com os padrões PKCS8 e têm os cabeçalhos e rodapés PEM padrão. Observe que é necessário definir o arquivo de chave privada do Snowflake ou a chave privada do Snowflake.	Não
Arquivo de chave privada Snowflake	Ao utilizar: Estratégia de autenticação de token de sessão: o arquivo de chave privada deve estar em branco. KEY_PAIR: carregue o arquivo que contém a chave privada RSA usada para autenticação no Snowflake, formatado de acordo com os padrões PKCS8 e incluindo cabeçalhos e rodapés PEM padrão. A linha do cabeçalho começa com `-----BEGIN PRIVATE`. Para carregar o arquivo de chave privada, marque a caixa de seleção Reference asset.	Não
Senha de chave privada Snowflake	Ao usar Session Token Authentication Strategy: deve ficar em branco. KEY_PAIR: forneça a senha associada ao arquivo de chave privada do Snowflake.	Não
Função Snowflake	Ao usar Estratégia de autenticação de tokens de sessão: use sua função de tempo de execução. use sua função do Snowflake. Para encontrá-la, navegue até View Details do seu tempo de execução na UI do Openflow. Estratégia de autenticação de KEY_PAIR: use uma função válida configurada para o usuário do seu serviço.	Sim
Nome de usuário do Snowflake	Ao usar Session Token Authentication Strategy: deve ficar em branco. KEY_PAIR: forneça o nome de usuário usado para se conectar à instância do Snowflake.	Sim
Estratégia de valores excedentes	Determina como o conector lida com valores que excedem os limites de tamanho internos (16 MB) durante a replicação. Os valores possíveis são: Fail Table (padrão): a tabela é marcada como falha permanente, e a replicação é interrompida para essa tabela. Set Null: o valor é substituído por `NULL` na tabela de destino. Use esta opção para impedir falhas na tabela quando for aceitável perder dados em tabelas que ultrapassem o valor excedente.	Não
Warehouse Snowflake	Warehouse Snowflake usado para executar consultas.	Sim

Parâmetros de ingestão do Dataverse¶


Parâmetro	Descrição
Intervalo de agendamento	Intervalo a ser usado como intervalo de acionamento para o processador buscar a lista de tabelas e inicializar a ingestão.
Estratégia de filtro de tabelas de origem	Estratégia de filtragem das tabelas a serem ingeridas. Pode ser REGEXP e LIST.
Valor do filtro de tabelas de origem	Valor do filtro de tabelas. Quando a Estratégia de filtro de tabelas de origem estiver definida como REGEXP – essa é a expressão regular que corresponderá às tabelas selecionadas. Quando LIST é fornecido, trata-se de uma lista de nomes de tabelas separados por vírgulas.
Filtro de coluna JSON	Opcional. Uma matriz JSON que especifica os filtros de coluna por tabela. As colunas podem ser incluídas ou excluídas por nome (`included`, `excluded`) ou por padrão de expressão regular (`includedPattern`, `excludedPattern`). O valor `table` deve ser o nome da entidade lógica no singular (por exemplo, `annotation`), e não o nome do conjunto de entidades no plural usado em `Source Tables Filter Value` (por exemplo, `annotations`). Por exemplo: `[ {"table": "mytable", "excluded": ["binarycolumn", "binarycolumn_binary"]} ]` exclui grandes colunas binárias de `mytable`. Consulte Replicar um subconjunto de colunas em uma tabela para obter todos os detalhes.

Nota

Ao configurar Source Tables Filter Value, use o nome do conjunto de entidades (no plural, por exemplo, annotations) em vez do nome da tabela exibido na interface do Microsoft Dataverse. Para encontrar o nome do conjunto de entidades de uma tabela, acesse Power apps, selecione Tables, encontre sua tabela e selecione Advanced » Tools » Copy set name.

O parâmetro Column Filter JSON usa uma convenção de nomenclatura diferente. Ele requer o nome da entidade lógica no singular (por exemplo, annotation). Consulte Replicar um subconjunto de colunas em uma tabela para obter detalhes.

Execute o fluxo¶

Clique com o botão direito do mouse no plano e selecione Enable all Controller Services.
Clique com o botão direito do mouse no grupo de processos importado e selecione Start. O conector inicia a ingestão de dados.

Replique um subconjunto de colunas em uma tabela¶

O conector pode filtrar os dados replicados por tabela para um subconjunto de colunas configuradas.

Para aplicar filtros a colunas, modifique a propriedade Column Filter do contexto de parâmetros de replicação para especificar um filtro JSON. Adicione uma matriz de configurações, uma entrada para cada tabela à qual você deseja aplicar um filtro.

Importante

O campo table deve usar o nome da entidade lógica no singular (por exemplo, annotation), e não o nome do conjunto de entidades no plural usado em Source Tables Filter Value (por exemplo, annotations). Para encontrar o nome da entidade lógica no Power Apps, vá para o Power Apps, selecione Tables, encontre a tabela e selecione Advanced » Tools » Copy logical name.

Algumas colunas têm uma representação binária armazenada sob um nome de coluna com sufixo _binary (por exemplo, uma coluna mycolumn também pode aparecer como mycolumn_binary). Para excluir totalmente essa coluna, liste os dois nomes na matriz excluded.

O exemplo a seguir exclui grandes colunas binárias de uma tabela:

[
    {
        "table": "mytable",
        "excluded": ["mycolumn", "mycolumn_binary"]
    }
]

As colunas podem ser incluídas ou excluídas por nome ou padrão. Você pode aplicar uma única condição por tabela ou combinar várias condições, com as exclusões tendo precedência sobre as inclusões.

O exemplo a seguir mostra todos os campos disponíveis. O campo table é obrigatório. Pelo menos um dos seguintes é obrigatório: included, excluded, includedPattern, excludedPattern.

[
    {
        "table" : "<singular logical entity name>",
        "included": ["<column name>", "<column name>"],
        "excluded": ["<column name>", "<column name>"],
        "includedPattern": "<regular expression>",
        "excludedPattern": "<regular expression>",
    }
]

Gerenciar o estado da tabela¶

O conector mantém o estado de ingestão por tabela no serviço do controlador Dataverse Table State Service. Cada entrada registra o status de ingestão atual e o token delta usado para rastreamento de alterações.

Visualizar o estado do conector¶

Para visualizar o estado atual de todas as tabelas:

Clique com o botão direito do mouse na tela e selecione Controller services.
Localize o serviço do controlador chamado Dataverse Table State Service.
No menu Dataverse Table State Service, clique em View state.

O estado é um conjunto de pares chave-valor, em que a chave é o nome do conjunto de entidades da tabela (por exemplo, accounts). O valor tem o formato <STATUS>;<deltaToken>;<skipToken>;<staleFlag>, por exemplo:

accounts -> DONE;!AAAAAjE...;;

O STATUS pode ser uma das seguintes opções:

FETCHING: o conector está buscando ativamente registros para esta tabela.
DONE: a última execução de ingestão foi concluída com sucesso.

Reiniciar a ingestão para uma única tabela¶

Limpar o estado de uma tabela faz com que o conector execute uma nova ingestão completa dessa tabela na próxima execução. Todos os registros já sincronizados são ingeridos novamente.

Para reiniciar a ingestão para uma tabela específica:

Interrompa todos os processadores no fluxo.
Garanta que não haja FlowFiles em processamento para a tabela.
Clique com o botão direito do mouse na tela e selecione Disable all controller services.
Vá para Controller services e abra a exibição de estado para Dataverse Table State Service.
Selecione o ícone de lixeira ao lado da entrada da tabela (identificada pelo nome do conjunto de entidades) para remover o estado somente dessa tabela.
Clique com o botão direito do mouse na tela, selecione Enable all controller services e inicie todos os processadores.

Reiniciar a ingestão para todas as tabelas¶

Para reiniciar a ingestão para todas as tabelas replicadas:

Interrompa todos os processadores no fluxo.
Limpe todos os FlowFiles das filas do conector.
Clique com o botão direito do mouse na tela e selecione Disable all controller services.
Vá para Controller services e abra a exibição de estado para Dataverse Table State Service.
Selecione Clear state para remover todas as entradas da tabela.
Clique com o botão direito do mouse na tela, selecione Enable all controller services e inicie todos os processadores.

Cuidado

Não exclua os FlowFiles manualmente enquanto o conector estiver em execução. Isso pode deixar a tabela com status FETCHING indefinidamente. Se isso ocorrer, reinicie a ingestão para essa tabela, conforme descrito acima.