Criação de modelos personalizados de clean rooms

Sobre os modelos de clean rooms

Os modelos de clean room são escritos em JinjaSQL. JinjaSQL é uma extensão da linguagem de modelos Jinja que gera uma consulta SQL como saída. O JinjaSQL oferece suporte a instruções lógicas e resolução de variáveis em tempo de execução para permitir que o usuário personalize a consulta em tempo de execução. As variáveis são normalmente usadas em um modelo para permitir que um usuário especifique nomes de tabelas, colunas de tabelas e valores personalizados a serem usados em sua consulta.

O Snowflake oferece uma seleção de modelos predefinidos para casos de uso comuns. Esses modelos de estoque podem ser usados somente no aplicativo Web. No entanto, tanto os provedores quanto os consumidores podem criar modelos personalizados para uma clean room. Os modelos personalizados podem ser criados somente no código, mas podem ser executados no código ou por meio do aplicativo Web.

Há dois tipos gerais de modelos:

  • Modelos de análise, que avaliam uma instrução SELECT (ou um conjunto de operações SELECT).

  • Modelos de ativação, que avaliam uma instrução SELECT aninhada dentro de uma instrução CREATE TABLE e retornam o nome da tabela. Esse modelo gera dados que são exportados para a conta Snowflake do consumidor ou do provedor ou para um terceiro, dependendo de como a clean room está configurada. Um modelo de ativação é muito semelhante a um modelo de análise com alguns requisitos adicionais.

Nas UI de clean rooms, um modelo de análise pode ser associado a um modelo de ativação para permitir que o chamador execute uma análise e, em seguida, envie os dados para si mesmo ou para terceiros. O modelo de ativação não precisa ser resolvido para a mesma consulta que o modelo de análise associado.

Criação e execução de um modelo personalizado

Em uma clean room com configurações padrão, o provedor adiciona um modelo a uma clean room e o consumidor pode escolher, configurar e executá-la:

  1. O provedor projeta um modelo personalizado e o adiciona a uma clean room chamando provider.add_custom_sql_template.

  2. O consumidor chama consumer.run_analysis para executar o modelo do provedor, passando valores para quaisquer variáveis necessárias ao modelo.

Esse fluxo não exige permissões da outra parte, a não ser o fato de que o consumidor deve ser convidado pelo provedor para uma clean room. Há variações nesse processo, como modelos fornecidos pelo consumidor e modelos gerenciados pelo provedor, que são abordados em outro lugar.

Proteção de dados

Os modelos podem acessar apenas conjuntos de dados vinculados à clean room pelo provedor e pelo consumidor.

Tanto o provedor quanto o consumidor podem definir políticas de junção, coluna e ativação em seus dados para proteger quais colunas podem ser unidas, projetadas ou projetadas em resultados ativados.

Um exemplo rápido

Aqui está um exemplo simples de SQL que une uma tabela de provedor e uma tabela de consumidor por e-mail e mostra a contagem de sobreposições por cidade:

SELECT COUNT(*), city FROM consumer_table
  INNER JOIN provider_table
  ON consumer_table.hashed_email = provider_table.hashed_email
  GROUP BY city;
Copy

Esta é a aparência dessa consulta como um modelo que permite que o chamador escolha as colunas select/group e join, bem como as tabelas:

SELECT COUNT(*), IDENTIFIER({{ group_by_col | column_policy }})
  FROM IDENTIFIER({{ my_table[0] }}) AS C
  INNER JOIN IDENTIFIER({{ source_table[0] }}) AS P
  ON IDENTIFIER({{ consumer_join_col | join_policy }}) = IDENTIFIER({{ provider_join_col | join_policy }})
  GROUP BY IDENTIFIER({{ group_by_col | column_policy }});
Copy

Observações sobre o modelo:

  • Os valores em {{ double bracket pairs }} são variáveis personalizadas. group_by_col, my_table, source_table, consumer_join_col, provider_join_col e group_by_col são variáveis personalizadas preenchidas pelo chamador.

  • source_table e my_table são variáveis de matriz de cadeia de caracteres definidas pelo Snowflake e preenchidas pelo chamador. Os membros da matriz são nomes totalmente qualificados de tabelas de provedores e consumidores vinculadas à clean room. O chamador especifica quais tabelas devem ser incluídas em cada matriz.

  • As tabelas de provedores devem ter o alias P e as tabelas de consumidores C em um modelo. Se você tiver várias tabelas, poderá indexá-las como P1, P2, C1, C2 e assim por diante.

  • IDENTIFIER é necessário para todos os nomes de colunas e tabelas, pois as variáveis em {{ double brackets }} são avaliadas como literais de cadeia de caracteres, que não são identificadores válidos.

  • Filtros JinjaSQL podem ser aplicados às variáveis. O Snowflake implementa os filtros personalizados join_policy e column_policy, que verificam se uma coluna está em conformidade com as políticas de junção ou de coluna na clean room, respectivamente, e reprova a consulta se não estiver. Um filtro é aplicado a um nome de coluna como {{ column_name | filter_name }}.

Todos esses pontos serão discutidos em detalhes posteriormente.

Veja como um consumidor pode executar esse modelo no código. Observe como os nomes de colunas são qualificados pelos aliases de tabela declarados no modelo.

CALL SAMOOHA_BY_SNOWFLAKE_LOCAL_DB.CONSUMER.RUN_ANALYSIS(
  $cleanroom_name,
  $template_name,
  ['my_db.my_sch.consumer_table],       -- Populates the my_table variable
  ['my_db.my_sch.provider_table'],      -- Populates the source_table variable
  OBJECT_CONSTRUCT(                     -- Populates custom named variables
    'consumer_join_col','c.age_band',
    'provider_join_col','p.age_band',
    'group_by_col','p.device_type'
  )
);
Copy

Para usar esse modelo no aplicativo Web, o provedor deve criar um formulário de UI personalizado para o modelo. O formulário de UI tem elementos de formulário nomeados que correspondem a nomes de variável de modelo, e os valores fornecidos no formulário são passados ao modelo.

Dica

No início do desenvolvimento, você pode usar o procedimento consumer.get_sql_jinja para ver a aparência do modelo quando ele for renderizado. Mas lembre-se de que esse procedimento não oferece suporte a extensões de filtro de clean room, como join_policy; portanto, você precisará omitir esses filtros em qualquer modelo enviado a esse procedimento.

Sintaxe de modelo personalizado

O Snowflake Data Clean Rooms é compatível com JinjaSQL V3, com algumas extensões, conforme indicado.

Esta seção inclui os seguintes tópicos:

Regras de nomeação de modelos

Ao criar um modelo, os nomes devem ser todos em letras minúsculas, números, espaços ou sublinhados. Os modelos de ativação (exceto para a ativação do provedor administrado pelo consumidor) devem ter um nome que comece com “activation”. Os nomes de modelos são atribuídos quando você chama provider.add_custom_sql_template ou consumer.create_template_request.

Exemplo de nomes válidos:

  • my_template

  • activation_template_1

Exemplo de nomes inválidos:

  • my template – Espaços não permitidos

  • My_Template – Somente modelos em letras minúsculas são permitidos

Variáveis de modelo

Os chamadores de modelo podem passar valores para variáveis de modelo. A sintaxe JinjaSQL permite a vinculação de variáveis para qualquer nome de variável em {{ double_brackets }}, mas o Snowflake reserva alguns nomes de variável que você não deve substituir, conforme descrito abaixo.

Cuidado

Todas as variáveis, sejam elas definidas pelo Snowflake ou personalizadas, são preenchidas pelo usuário e devem ser tratadas com a devida cautela. Os modelos do Snowflake Data Clean Rooms devem ser resolvidos em uma única instrução SELECT, mas você ainda deve se lembrar de que todas as variáveis são passadas pelo chamador.

Variáveis definidas pelo Snowflake

Todos os modelos de clean room têm acesso às seguintes variáveis globais definidas pelo Snowflake, mas passadas pelo chamador:

source_table:

Uma matriz de cadeias de caracteres com base zero contendo as tabelas e exibições vinculadas ao provedor na clean room que pode ser usada pelo modelo. Os nomes de tabelas são totalmente qualificados, por exemplo: my_db.my_sch.provider_customers

Exemplo: SELECT col1 FROM IDENTIFIER({{ source_table[0] }}) AS p;

my_table:

Uma matriz de cadeias de caracteres com base zero contendo tabelas e exibições de consumidores na clean room que pode ser usada pelo modelo. Os nomes de tabelas são totalmente qualificados, por exemplo: my_db.my_sch.consumer_customers

Exemplo: SELECT col1 FROM IDENTIFIER({{ my_table[0] }}) AS c;

privacy:

Um conjunto de valores relacionados à privacidade associados a usuários e modelos. Veja a lista de campos filho disponíveis. Esses valores podem ser definidos explicitamente para o usuário, mas seu modelo deve sempre fornecer um valor padrão caso eles não sejam definidos. Acesse os campos secundários diretamente em seu modelo, como privacy.threshold.

Exemplo: aqui está um exemplo de trecho de código de um modelo que usa threshold_value para aplicar um tamanho mínimo de grupo em uma cláusula de agregação.

SELECT
  IFF(a.overlap > ( {{ privacy.threshold_value | default(2)  | sqlsafe }} ),
                    a.overlap,1 ) AS overlap,
  c.total_count AS total_count
  ...
Copy

Nota

Há duas variáveis globais de clean room herdadas: measure_columns e dimensions. O uso desses nomes não é mais recomendado, mas eles ainda são definidos e aparecem em alguns modelos e documentações herdados, portanto, você não deve criar aliases de tabelas ou colunas usando qualquer um desses nomes para evitar colisões de nomes.

Variáveis personalizadas

Os criadores de modelos podem incluir variáveis arbitrárias em um modelo que pode ser preenchido pelo chamador. Essas variáveis podem ter qualquer nome arbitrário compatível com Jinja, exceto as variáveis definidas pelo Snowflake ou os nomes de alias de tabela. Se quiser que o modelo possa ser usado no aplicativo Web, você também deve fornecer um formulário de UI para os usuários do aplicativo da Web. Para os usuários de API, você deve fornecer uma boa documentação sobre as variáveis obrigatórias e opcionais.

As variáveis personalizadas podem ser acessadas por seu modelo, conforme mostrado aqui para a variável personalizada max_income:

SELECT income FROM my_db.my_sch.customers WHERE income < {{ max_income }};
Copy

Os usuários podem passar variáveis para um modelo de duas maneiras diferentes:

  • No aplicativo da Web, selecionando ou fornecendo valores por meio de um formulário de UI criado pelo desenvolvedor do modelo. Este formulário de UI contém elementos de formulário em que o usuário pode fornecer valores para o seu modelo. O nome do elemento do formulário é o nome da variável. O modelo simplesmente usa o nome do elemento do formulário para acessar o valor. Crie o formulário de UI usando provider.add_ui_form_customizations.

  • No código, um consumidor chama consumer.run_analysis e passa os nomes das tabelas como matrizes de argumentos e as variáveis personalizadas como pares nome-valor ao argumento analysis_arguments.

Nota

Se precisar acessar os valores fornecidos pelo usuário em qualquer código Python personalizado carregado na clean room, você deve passar explicitamente os valores de variável ao código por meio dos argumentos da função Python; as variáveis de modelo não podem ser acessadas diretamente no código Python usando {{jinja variable binding syntax}}.

Resolução correta de variáveis

Os valores de cadeia de caracteres passados para o modelo são resolvidos como literais de cadeia de caracteres no modelo final. Isso pode causar erros SQL de análise ou lógicos se você não tratar adequadamente as variáveis vinculadas:

  • SELECT {{ my_col }} FROM P; resolve para SELECT 'my_col' from P; que simplesmente retorna a cadeia de caracteres “my_col” – provavelmente não é o que você deseja.

  • SELECT age FROM {{ my_table[0] }} AS P; resolve para SELECT age FROM 'somedb.somesch.my_table' AS P;, o que causa um erro de análise porque uma tabela deve ser um identificador, não uma cadeia de caracteres literal.

  • SELECT age FROM IDENTIFIER({{ my_table[0] }}) AS P {{ where_clause }}; passando em “WHERE age < 50” avalia para SELECT age FROM mytable AS P 'WHERE age < 50';, que é um erro de análise por causa da cláusula WHERE de cadeia de caracteres literal.

Portanto, quando apropriado, você deve resolver as variáveis. Veja como resolver as variáveis corretamente em seu modelo:

Nomes de tabelas e colunas

As variáveis que especificam nomes de tabelas ou colunas devem ser convertidas em identificadores em seu modelo de duas maneiras:

  • IDENTIFIER: por exemplo, SELECT IDENTIFIER({{ my_column }}) FROM P;

  • sqlsafe: esse filtro JinjaSQL resolve cadeias de caracteres de identificadores para o texto SQL. Uma instrução equivalente ao item anterior é SELECT {{ my_column | sqlsafe }} FROM P;

Seu uso específico determina quando usar IDENTIFIER ou sqlsafe. Por exemplo, c.{{ my_column | sqlsafe }} não pode ser facilmente reescrito usando IDENTIFIER.

SQL dinâmico

Quando você tiver uma variável de cadeia de caracteres que deva ser usada como SQL literal, como uma cláusula WHERE, use o filtro sqlsafe em seu modelo. Por exemplo:

SELECT age FROM IDENTIFIER({{ my_table[0] }}) AS C WHERE {{ where_clause }};
Copy

Se um usuário inserir “age < 50” em where_clause, a consulta será resolvida em SELECT age FROM sometable AS C WHERE 'age < 50';, que é SQL inválido devido à condição WHERE da cadeia de caracteres literal. Nesse caso, você deve usar o filtro sqlsafe:

SELECT age FROM IDENTIFIER( {{ my_table[0] }} ) as C {{ where_clause | sqlsafe }};
Copy

Aliases de tabela necessários

No nível superior de sua consulta, todas as tabelas ou subconsultas devem ter o alias P (para tabelas de provedores) ou C (para tabelas de consumidores) para que o Snowflake valide corretamente as políticas de junção e coluna na consulta. Qualquer coluna que precise ser verificada em relação às políticas de junção ou de coluna pertence a uma tabela cujo alias é P ou C. (Especificar P ou C informa ao back-end se a coluna deve ser validada com base na política do provedor ou consumidor, respectivamente)

Se você usar várias tabelas de provedor ou consumidor em sua consulta, adicione um sufixo numérico sequencial baseado em 1 a cada alias de tabela após o primeiro. Portanto: P, P1, P2 e assim por diante para a primeira, segunda e terceira tabelas de provedores, e C, C1, C2 e assim por diante para a primeira, segunda e terceira tabelas de consumidores. O índice P ou C deve ser sequencial, sem intervalos (ou seja, crie os aliases P, P1 e P2, e não P, P2 e P4).

Exemplo

SELECT col1 FROM IDENTIFIER({{ source_table[0] }}) AS P;
Copy

Filtros de modelo

O Snowflake é compatível com todos os filtros Jinja padrão e com a maioria dos filtros padrão JinjaSQL, além de algumas extensões:

  • join_policy: verifica se a coluna é permitida pela política de junção da tabela e falha se não for.

  • column_policy: verifica se a coluna é permitida pela política de colunas do modelo (pode ser projetada).

  • activation_policy: verifica se a coluna filtrada é permitida pelas políticas de ativação da clean room (provider.set_activation_policy ou consumer.set_activation_policy).

  • join_and_column_policy: verifica se a coluna é permitida pelas políticas de junção, ativação ou coluna. Usado para oferecer mais flexibilidade na clean room, para permitir que os colaboradores atualizem as políticas de junção e coluna sem alterar o modelo.

  • O filtro JinjaSQL identifier não é compatível com os modelos Snowflake.

Os filtros JinjaSQL são analisados da esquerda para a direita:

  • {{ my_col | column_policy }} Correto

  • {{ my_col | sqlsafe | column_policy }} Correto

  • {{ column_policy | my_col }} Incorreto

  • {{ my_col | column_policy | sqlsafe }} Incorreto

Aplicação de políticas de clean room

As clean rooms não verificam automaticamente as políticas de clean room em relação às colunas usadas em um modelo. Se quiser impor uma política a uma coluna, você deve aplicar o filtro de política apropriado a essa coluna no modelo. Por exemplo:

JOIN IDENTIFIER({{ source_table[0] }}) AS p
  ON {{ c_join_col | sqlsafe | join_policy }} = {{ p_join_col | sqlsafe }}
Copy

Isso testará a política de junção em relação à coluna passada para c_join_col, mas não em relação a p_join_col.

Observe que os nomes das colunas não podem ser ambíguos ao testar políticas, da mesma forma que qualquer outro uso de SQL. Portanto, se você tiver colunas com o mesmo nome em duas tabelas, deverá qualificar o nome da coluna para testar a política em relação a essa coluna.

Execução de código Python personalizado

Os modelos podem executar o código Python carregado na clean room. O modelo pode chamar uma função Python que aceita valores de uma linha de dados e retorna valores para serem usados ou projetados na consulta.

  • Quando um provedor faz upload de código Python personalizado em uma clean room, o modelo chama funções Python com a sintaxe cleanroom.function_name. Mais detalhes aqui.

  • Quando um consumidor faz upload de código Python personalizado em uma clean room, o modelo chama a função com o valor function_name passado para consumer.generate_python_request_template (sem escopo para clean room como o código do provedor). Mais detalhes aqui.

Exemplo de código de provedor:

-- Provider uploads a Python function that takes two numbers and returns the sum.
call samooha_by_snowflake_local_db.provider.load_python_into_cleanroom(
  $cleanroom_name,
  'simple_addition',                        -- Function name to use in the template
  ['someval integer', 'added_val integer'], -- Arguments
  [],                                       -- No packages needed
  'integer',                                -- Return type
  'main',                                   -- Handler for function name
  $$

def main(input, added_val):
  return input + int(added_val)
    $$
);

-- Template passes value from each row to the function, along with a
-- caller-supplied argument named 'increment'
call samooha_by_snowflake_local_db.provider.add_custom_sql_template(
    $cleanroom_name,
    'simple_python_example',
$$
    SELECT val, cleanroom.simple_addition(val, {{ increment | sqlsafe }})
    FROM VALUES (5),(8),(12),(39) AS P(val);
$$
);
Copy

Considerações de segurança

Um modelo deve ser avaliado em uma única consulta SELECT, que é executada pelo aplicativo nativo da clean room. O modelo não é executado com a identidade do usuário atual.

O usuário não tem acesso direto a nenhum dado dentro da clean room; todo o acesso é feito pelo aplicativo nativo por meio dos resultados do modelo.

Aplique um filtro de política sempre que uma coluna for usada na consulta, mesmo quando o nome da coluna for definido explicitamente no modelo, ou quando a coluna ou tabela for fornecida pelo usuário. Você pode alterar as políticas de junção ou coluna posteriormente, ou alterar a coluna e esquecer de atualizar o modelo. Para todas as colunas fornecidas pelo usuário, você deve aplicar um filtro join_policy, column_policy, join_and_column_policy ou activation_policy.

Modelos de ativação

Um modelo também pode ser usado para salvar os resultados de consulta em uma tabela fora da clean room; isso é chamado de ativação. Atualmente, as únicas formas de ativação compatíveis com modelos personalizados são a ativação do provedor e a ativação do consumidor (armazenando resultados na conta Snowflake do provedor ou do consumidor, respectivamente). Saiba como implementar a ativação.

Um modelo de ativação é um modelo de análise com os seguintes requisitos adicionais:

  • Os modelos de ativação são instruções JinjaSQL que são avaliadas em um bloco de script SQL, diferentemente dos modelos de análise, que podem ser simples instruções SELECT.

  • O nome do modelo de ativação deve começar com a cadeia de caracteres activation (exceto para modelos de ativação de provedores executados pelo consumidor). Por exemplo: activation_my_template.

  • O modelo de ativação deve criar uma tabela com um nome que depende do tipo de ativação que ele permite:

    • Ativação de provedor executada pelo provedor: o nome da tabela gerada deve ser cleanroom.temp_result_data.

    • Todos os outros tipos de ativação: o nome da tabela gerada deve ser prefixado por cleanroom.activation_data_, por exemplo: cleanroom.activation_data_cross_activation_results. O nome da tabela deve ser exclusivo em sua clean room.

    Essa tabela gerada é uma tabela intermediária; você não deve tentar acessá-la diretamente.

  • O bloco de script deve terminar com uma instrução RETURN que retorna o nome da tabela gerada, menos qualquer prefixo cleanroom. ou cleanroom.activation_data_.

  • Todas as colunas que estão sendo ativadas devem estar listadas na política de ativação do provedor ou consumidor que vinculou os dados e devem ter o filtro activation_policy aplicado a elas. Observe que uma coluna pode ser tanto uma coluna de ativação quanto uma coluna de junção.

  • Se o modelo tiver de ser executado a partir da UI de clean rooms, você deverá fornecer um formulário Web que inclua os campos activation_template_name e enabled_activations. Os modelos para uso na UI devem ter um modelo de análise e um modelo de ativação associado.

  • Todas as colunas calculadas devem ter aliases explícitos, em vez de nomes inferidos, porque uma tabela está sendo gerada. Ou seja:

    SELECT COUNT(*), P.status from T AS P; FAILS porque o nome da coluna COUNT é inferido.

    SELECT COUNT(*) AS COUNT_OF_ITEMS, P.status from T AS P; SUCCEEDS porque ele cria explicitamente um alias para a coluna COUNT.

Aqui estão duas amostras de modelos básicos de ativação. Um é para ativação de servidor executado pelo provedor e o outro é para outros tipos de ativação. Eles diferem nas duas linhas destacadas, que contêm o nome da tabela de resultados.

-- These are the required table name strings.
BEGIN
  CREATE OR REPLACE TABLE cleanroom.temp_result_data AS
    SELECT COUNT(c.status) AS ITEM_COUNT, c.status, c.age_band
      FROM IDENTIFIER({{ my_table[0] }}) AS c
    JOIN IDENTIFIER({{ source_table[0] }}) AS p
      ON {{ c_join_col | sqlsafe | activation_policy }} = {{ p_join_col | sqlsafe | activation_policy }}
    GROUP BY c.status, c.age_band
    ORDER BY c.age_band;
  RETURN 'temp_result_data';
END;
Copy

Próximos passos

Depois que você dominar o sistema de modelos, leia os detalhes específicos para implementar uma clean room com seu tipo de modelo:

  • Modelos de provedor são modelos gravados pelo provedor. Esse é o caso de uso padrão.

  • Modelos de consumidor são modelos gravados pelo consumidor. Em alguns casos, o criador de uma clean room quer permitir que o consumidor crie, carregue e execute seus próprios modelos na clean room.

  • Modelos de ativação criam uma tabela de resultados após uma execução bem-sucedida. Dependendo do modelo de ativação, a tabela de resultados pode ser salva na conta de provedor ou consumidor fora da clean room ou enviada a um provedor de ativação terceirizado listado no hub de ativação.

  • Modelos encadeados permitem que você encadeie vários modelos em que a saída de cada modelo é usada pelo próximo modelo da cadeia.

Mais informações