Snowflakeデータクリーンルーム：機械学習¶

このトピックでは、クリーンルームをプログラムで設定し、コンシューマーと共有し、高度な機械学習アルゴリズムによる分析を実行するために必要なプロバイダーとコンシューマーのフローについて説明します。プロバイダーは、ランダムフォレストベースのXGBoost機械学習アルゴリズムを実装した安全なPythonコードをクリーンルームにロードします。これは完全な機密事項であり、プロバイダーにしか表示されません。コンシューマーはクリーンルームにロードされたPython機械学習コードを見ることはできません。

このフローでは、以下の内容について説明します。

プロバイダー：

a.Lookalike Modeling分析を実行するカスタムテンプレートを追加する。

b.XGBoostを活用した機械学習pythonコードベースのテンプレートを安全に追加する。

c.カスタムテンプレートを使用して、クリーンルーム内の機械学習UDFsを呼び出す。
コンシューマー：

a.プロバイダーによって定義されたML関数を使用するカスタムテンプレートを実行する。

Lookalike Modeling とは、コンシューマーがプロバイダーの高額顧客に統計モデルをトレーニングすることで、プロバイダーのデータから「高額」顧客を見つけようとする分析の一種です。このモデルでは、コンシューマーが指定したフラグを使用して、コンシューマーのデータセットに含まれる、ある閾値以上の支出を持つユーザーなど、価値の高いユーザーを示します。学習されたモデルは、プロバイダーのデータから、コンシューマーにとって「価値の高い」可能性のある顧客を推測するために使用されます。

前提条件¶

このフローを完了するには、2つの別々のSnowflakeアカウントが必要です。プロバイダーのコマンドを実行するために最初のアカウントを使用し、コンシューマーのコマンドを実行するために2番目のアカウントに切り替えます。

プロバイダー¶

注釈

以下のコマンドは、プロバイダーアカウントのSnowflakeワークシートで実行する必要があります。

環境の設定¶

開発者APIsを使用してSnowflake Data Clean Roomで作業する前に、以下のコマンドを実行してSnowflake環境をセットアップします。SAMOOHA_APP_ROLEロールを持ってない場合は、アカウント管理者にお問い合わせください。

use role samooha_app_role;
use warehouse app_wh;

Copy

クリーンルームの作成¶

クリーンルームの名称を作成します。既存のクリーンルーム名との衝突を避けるため、新しいクリーンルーム名を入力してください。クリーンルームの名前に使用できるのは 英数字 のみです。クリーンルーム名には、スペースとアンダースコア以外の特殊文字は使用できません。

set cleanroom_name = 'Machine Learning Demo Clean room';

Copy

上記で設定したクリーンルーム名で新しいクリーンルームを作成できます。上記で設定したクリーンルーム名が既にデフォルトのクリーンルームとして存在する場合、この処理は失敗します。

この手順には少し時間がかかりますが、通常は30秒程度です。

provider.cleanroom_init の2番目の引数は、クリーンルームのディストリビューションです。これはINTERNALまたはEXTERNALのいずれかです。テスト目的で、同じ組織内のアカウントにクリーンルームを共有する場合、INTERNALを使用して、アプリケーションパッケージがコラボレーターにリリースされる前に実施されなければならない自動セキュリティスキャンをバイパスすることができます。ただし、このクリーンルームを別の組織のアカウントと共有する場合は、EXTERNALクリーンルーム配布を使用する必要があります。

call samooha_by_snowflake_local_db.provider.cleanroom_init($cleanroom_name, 'INTERNAL');

Copy

セキュリティスキャンのステータスを表示するには、以下を使用します。

call samooha_by_snowflake_local_db.provider.view_cleanroom_scan_status($cleanroom_name);

Copy

クリーンルームを作成したら、コラボレーターと共有する前にリリースディレクティブを設定する必要があります。しかし、ディストリビューションがEXTERNALに設定されている場合は、リリースディレクティブを設定する前に、まずセキュリティスキャンが完了するのを待つ必要があります。残りのステップの実行を続け、スキャンが実行されている間、 provider.create_or_update_cleanroom_listing ステップの前にここで戻ることができます。

リリースディレクティブを設定するには、次のようにします。

call samooha_by_snowflake_local_db.provider.set_default_release_directive($cleanroom_name, 'V1_0', '0');

Copy

データセットをリンクし、データセットの結合ポリシーを設定します。¶

Snowflakeテーブルをクリーンルームにリンクし、Snowflakeアカウントのテーブルリストを参照し、完全修飾テーブル名（Database.Schema.Table）を配列として入力します。この手順では、クリーンルーム内からテーブルの安全な表示を作成することで、テーブルを自動的にクリーンルームにアクセスできるようにし、テーブルのコピーを作成する必要がなくなります。

call samooha_by_snowflake_local_db.provider.link_datasets($cleanroom_name, ['samooha_provider_sample_database.lookalike_modeling.customers']);

Copy

注釈

テーブルが存在するにもかかわらずこの手順がうまくいかない場合、SAMOOHA_APP_ROLEロールにまだアクセス権が与えられていない可能性があります。もしそうであれば、ACCOUNTADMINロールに切り替え、データベース上で以下のプロシージャを呼び出します。

use role accountadmin;
call samooha_by_snowflake_local_db.provider.register_db('<DATABASE_NAME>');
use role samooha_app_role;

Copy

クリーンルームにリンクされたデータセット名を表示するには、以下のプロシージャを呼び出します。

call samooha_by_snowflake_local_db.provider.view_provider_datasets($cleanroom_name);

Copy

クリーンルームにリンクされたデータセットは、以下の手順で確認できます。

select * from samooha_provider_sample_database.lookalike_modeling.customers limit 10;

Copy

クリーンルーム内でテンプレートを実行する際に、コンシューマーが参加できる列を指定します。このプロシージャはemailのようなID列に対して呼び出される必要があります。結合ポリシーは「置換のみ」であるため、この関数が再度呼び出されると、以前に設定された結合ポリシーは新しいものに完全に置き換えられます。

call samooha_by_snowflake_local_db.provider.set_join_policy($cleanroom_name, ['samooha_provider_sample_database.lookalike_modeling.customers:hashed_email']);

Copy

結合ポリシー列を決定するためにすべての列を表示したい場合は、以下のプロシージャを呼び出します。

call samooha_by_snowflake_local_db.provider.view_join_policy($cleanroom_name);

Copy

クリーンルームに機密機械学習Pythonコードを追加する¶

このセクションでは、類似したML作業のために、いくつかのpython関数をクリーンルームにロードする方法を示します。クリーンルームにインストールされたすべてのPython関数は完全に機密です。コンシューマーには見えません。

次のAPIを使うことにより、Python関数をインライン関数としてクリーンルームに直接定義することができます。あるいは、クリーンルームステージにアップロードしたステージングされたファイルからPythonをロードすることもできます。例については[API リファレンスガイド]（../provider）をご参照ください。

注釈

この実装は、ARRAY_AGG（すなわち16MB）によって集計できるデータ量に対するSnowflakeの合計サイズの制約によって制限されることに注意してください。バッチングを使用して任意のサイズのデータセットに拡張できるバッチングとストリーミングモデルを活用した実装は、 リクエストに応じて利用可能 です。

call samooha_by_snowflake_local_db.provider.load_python_into_cleanroom(
    $cleanroom_name, 
    'lookalike_train',
    ['input_data variant', 'labels variant'],
    ['pandas', 'numpy', 'xgboost'],
    'variant',
    'train',
    $$
import numpy as np
import pandas as pd
import xgboost
from sklearn import preprocessing
import sys
import os
import pickle
import codecs
import threading


class TrainXGBoostClassifier(object):
    def __init__(self):
        self.model = None
        self._params = {
            "objective": "binary:logistic",
            "max_depth": 3,
            "nthread": 1,
            "eval_metric": "auc",
        }
        self.num_boosting_rounds = 10

    def get_params(self):
        if self.model is not None and "updater" not in self._params:
            self._params.update(
                {"process_type": "update", "updater": "refresh", "refresh_leaf": True}
            )
        return self._params

    def train(self, X, y):
        """
        Train the model in a threadsafe way
        """
        # pick only the categorical attributes
        categorical = X.select_dtypes(include=[object])

        # fit a one-hot-encoder to convert categorical features to binary features (required by XGBoost)
        ohe = preprocessing.OneHotEncoder()
        categorical_ohe = ohe.fit_transform(categorical)
        self.ohe = ohe

        # get the rest of the features and add them to the binary features
        non_categorical = X.select_dtypes(exclude=[object])
        train_x = np.concatenate((categorical_ohe.toarray(), non_categorical.to_numpy()), axis=1)

        xg_train = xgboost.DMatrix(train_x, label=y)

        params = self.get_params()
        params["eval_metric"] = "auc"
        evallist = [(xg_train, "train")]
        evals_result = {}

        self.model = xgboost.train(
            params, xg_train, self.num_boosting_rounds, evallist, evals_result=evals_result
        )

        self.evals_result = evals_result

    def __dump_model(self, model):
        """
        Save down the model as a json string to load up for scoring/inference
        """
        pickle_jar = codecs.encode(pickle.dumps([model, self.ohe]), "base64").decode()
        return pickle_jar

    def dump_model(self):
        """
        Save down the model as a json string to load up for scoring/inference
        """
        if self.model is not None:
            return self.__dump_model(self.model)
        else:
            raise ValueError("Model needs to be trained first")


def train(d1, l1):

    # get take training features and put them in a pandas dataframe
    X = pd.DataFrame(d1)

    # get the labels into a Numpy array
    y = np.array(l1)

    trainer = TrainXGBoostClassifier()
    trainer.train(X, y)

    # return training stats, accuracy, and the pickled model and pickled one-hot-encoder
    return {
        "total_rows": len(d1),
        "total_bytes_in": sys.getsizeof(d1),
        "model": trainer.dump_model(),
        "iteration": trainer.num_boosting_rounds,
        "auc": np.max(trainer.evals_result["train"]["auc"]),
        "error": 1 - np.max(trainer.evals_result["train"]["auc"])
    }    
    $$
);

Copy

では、クリーンルームにスコアリング関数を導入してみましょう。

call samooha_by_snowflake_local_db.provider.load_python_into_cleanroom(
    $cleanroom_name, 
    'lookalike_score',
    ['pickle_jar variant', 'emails variant', 'features variant'],
    ['pandas', 'numpy', 'xgboost', 'scikit-learn'],
    'string',
    'score',
    $$
import numpy as np
import pandas as pd
import xgboost as xgb
import pickle
import codecs
import json


def score(model, emails, features):
    # load model
    model = model[0] if not isinstance(model, str) else model
    model = pickle.loads(codecs.decode(model.encode(), "base64"))

    # retrieve the XGBoost trainer from the pickle jar
    bst = model[0]

    # retrieve the fitted one-hot-encoder from the pickle jar
    ohe2 = model[1]

    # create pandas dataframe from the inference features
    Y = pd.DataFrame(features)

    # select the categorical attributes and one-hot-encode them
    Y1 = Y.select_dtypes(include=[object])
    Y2 = ohe2.transform(Y1)

    # select the non-categorical attributes
    Y3 = Y.select_dtypes(exclude=[object])

    # join the results of the one-hot encoding to the rest of the attributes
    Y_pred = np.concatenate((Y2.toarray(), Y3.to_numpy()), axis=1)

    # inference
    dscore = xgb.DMatrix(Y_pred)
    pred = bst.predict(dscore)

    retval = list(zip(np.array(emails), list(map(str, pred))))
    retval = [{"email": r[0], "score": r[1]} for r in retval]
    return json.dumps(retval)  
    $$
);

Copy

注釈

Pythonをクリーンルームにロードすると、クリーンルーム用の新しいパッチが作成されます。クリーンルームのディストリビューションがEXTERNALに設定されている場合は、セキュリティスキャンが完了するのを待ってから、デフォルトのリリースディレクティブを更新する必要があります。

-- See the versions available inside the cleanroom
show versions in application package samooha_cleanroom_Machine_Learning_Demo_clean_room;

-- Once the security scan is approved, update the release directive to the latest version
call samooha_by_snowflake_local_db.provider.set_default_release_directive($cleanroom_name, 'V1_0', '2');

Copy

カスタムLookalike Modelingテンプレートを追加する¶

クリーンルームにカスタム分析テンプレートを追加するには、プロバイダー側とコンシューマー側の両方でテーブル名のプレースホルダーとプロバイダー側の結合列が必要です。SQL Jinjaテンプレートでは、これらのプレースホルダーは次のものである必要があります。

source_table：プロバイダーのテーブル名の配列。
my_table：コンシューマーのテーブル名の配列。

テーブル名は、これらの変数を使用して動的にすることができますが、クリーンルームにリンクされた表示名を使用して、必要に応じてテンプレートにハードコード化することもできます。列名はテンプレートにハードコード化することも、パラメーターで動的に設定することもできます。パラメーターを使用して設定する場合は、列ポリシーと照合するために、パラメーターの dimensions または measure_column を配列として呼び出す必要があることにご留意ください。これらを SQL Jinjaパラメーターとしてテンプレートに追加します。これらは後でクエリ時にコンシューマーから渡されます。結合ポリシーは、許可された列以外の列でコンシューマーにより結合できないようにします。

また、SQL Jinjaテンプレートのカスタム引数は、以下のフィルターを使用して、結合および列のポリシーに準拠しているかどうかを確認することができます。

join_policy: 文字列値またはフィルター句が結合ポリシーに準拠しているかどうかを確認します。
column_policy: 文字列値またはフィルター句が列ポリシーに準拠しているかどうかを確認します。
join_and_column_policy: フィルター句で結合に使用される列が結合ポリシーに準拠しているか、また、フィルターとして使用される列が列ポリシーに準拠しているかを確認します。

たとえば、 {{provider_id | sqlsafe | join_policy }} 句では、 p.HEM の入力が解析され、 p.HEM が結合ポリシーにあるかどうかが確認されます。注意： sqlsafe フィルターの使用には注意が必要です。このフィルターを使用すると、コラボレーターが純粋なSQLをテンプレートに入れることができます。

注釈

クリーンルームに実際にリンクされているセキュアビューの名前はテーブル名と異なるため、すべてのプロバイダー/コンシューマーテーブルは、これらの引数を使用して参照する必要があります。重要なのは、プロバイダーテーブルのエイリアスはp（またはp1）、p2、p3、p4などにする必要があり、コンシューマーテーブルのエイリアスはc（またはc1）、c2、c3などにする必要があるということです。これは、クリーンルームでセキュリティポリシーを実施するために必要です。

この関数は、同じ名前の既存のテンプレートを上書きすることに注意してください。既存のテンプレートを更新したい場合は、更新されたテンプレートでこの関数を再度呼び出します。

一連の機能はプロバイダーデータセットから選択され、一連のラベルはコンシューマーデータセットから選択されます。これらの2つのテーブルは、メール上で内部結合され、Random Forest学習アルゴリズムに渡されます。最後に、モデル学習ステップの出力は推論関数に渡されます。推論関数は、学習済みモデルを使用して、コンシューマーデータセットのプロバイダー顧客NOTのうち、どれが「高価値」であるかを「推論」します。そして、そのような個人の カウント数 が、モデルエラーとともに返されます。

顧客が「高価値である可能性が高い」と判断するスコアを決定するための閾値は、テンプレート内で0.5に手動設定されています。これはクリーンルームにテンプレートを追加する際に簡単に変更できます。

call samooha_by_snowflake_local_db.provider.add_custom_sql_template(
    $cleanroom_name, 
    'prod_custom_lookalike_template', 
    $$
WITH
features AS (
    SELECT
        p.hashed_email,
        array_construct(identifier({{ dimensions[0] | column_policy }}) {% for feat in dimensions[1:] %} , identifier({{ feat | column_policy }}) {% endfor %}) as features
    FROM
        identifier({{ source_table[0] }}) as p
),
labels AS (
    SELECT
        c.hashed_email,
        {{ filter_clause | sqlsafe | column_policy }} as label_value
    FROM
        identifier({{ my_table[0] }}) as c
),
trained_model AS (
    SELECT
        train_out:model::varchar as model,
        train_out:error::float as error
    FROM (
      SELECT
        cleanroom.lookalike_train(array_agg(f.features), array_agg(l.label_value)) as train_out
      FROM features f, labels l
      WHERE f.hashed_email = l.hashed_email
    )
),
inference_output AS (
    SELECT
        MOD(seq4(), 100) as batch,
        cleanroom.lookalike_score(
            array_agg(distinct t.model), 
            array_agg(p.hashed_email), 
            array_agg(array_construct( identifier({{ dimensions[0] | column_policy }}) {% for feat in dimensions[1:] %} , identifier({{ feat | column_policy }}) {% endfor %}) )
        ) as scores
    FROM trained_model t, identifier({{ source_table[0] }}) p
    WHERE p.hashed_email NOT IN (SELECT c.hashed_email FROM identifier({{ my_table[0] }}) c)
    GROUP BY batch
),
processed_output AS (
    SELECT value:email::string as email, value:score::float as score FROM (select scores from inference_output), lateral flatten(input => parse_json(scores))
)
SELECT p.audience_size, t.error from (SELECT count(distinct email) as audience_size FROM processed_output WHERE score > 0.5) p, trained_model t;
    $$
);  

Copy

注釈

上記のsamooha_by_snowflake_local_db.provider.add_custom_sql_templateプロシージャ呼び出しの最後のパラメータとして、差分プライバシー感度を追加することができます（追加しない場合、デフォルトは1になります）。

クリーンルームで現在有効なテンプレートを表示したい場合は、以下の手順を呼び出します。分析で差分プライバシー保証を有効にするための修正を行うことができます。同じようなパターンを、選んだカスタムテンプレートにも取り入れることができます。

call samooha_by_snowflake_local_db.provider.view_added_templates($cleanroom_name);

Copy

各テーブルに列ポリシーを設定する¶

テーブル内の列を確認するためにリンクされたデータを表示します。上位10行を表示するには、以下のプロシージャを呼び出します。

select * from samooha_provider_sample_database.lookalike_modeling.customers limit 10;

Copy

グループ化および集計できる列を設定し（例：SUM/AVG）、すべてのテーブルとテンプレートの組み合わせについて、一般的に分析で使用します。これにより、同じテーブルでも基本テンプレートによって異なる列選択ができる柔軟性が生まれます。これはテンプレートを追加した後にのみ呼び出する必要があります。

列ポリシーは 置換のみ であることに注意してください。したがって、この関数が再度呼び出された場合、以前に設定された列ポリシーは新しいものに完全に置き換えられます。

列ポリシーは、email、HEM、RampIDなどのID列では使用しないでください。コンシューマーがこれらの列でグループ化できないようにするためです。実稼働環境では、システムはインテリジェントにPII列を推測し、この操作をブロックしますが、この機能はサンドボックス環境では利用できません。Status、Age Band、Region Code、Days Activeなどのように、コンシューマーに集計やグループ化させる列にのみ使用してください。

「column_policy」と「join_policy」がコンシューマー分析リクエストのチェックを実行するために、SQL Jinjaテンプレートでは、すべての列名が dimensions または measure_columns として参照される必要があることに注意してください。カスタムSQL Jinjaテンプレートでチェックする列を参照するには、必ずこれらのタグを使用してください。

call samooha_by_snowflake_local_db.provider.set_column_policy($cleanroom_name, [
    'prod_custom_lookalike_template:samooha_provider_sample_database.lookalike_modeling.customers:status', 
    'prod_custom_lookalike_template:samooha_provider_sample_database.lookalike_modeling.customers:age', 
    'prod_custom_lookalike_template:samooha_provider_sample_database.lookalike_modeling.customers:region_code', 
    'prod_custom_lookalike_template:samooha_provider_sample_database.lookalike_modeling.customers:days_active', 
    'prod_custom_lookalike_template:samooha_provider_sample_database.lookalike_modeling.customers:income_bracket', 
    'prod_custom_lookalike_template:samooha_provider_sample_database.lookalike_modeling.customers:household_size', 
    'prod_custom_lookalike_template:samooha_provider_sample_database.lookalike_modeling.customers:gender'
]);

Copy

クリーンルームに追加された列ポリシーを表示したい場合は、次の手順を呼び出します。

call samooha_by_snowflake_local_db.provider.view_column_policy($cleanroom_name);

Copy

コンシューマーと共有する¶

最後に、以下のようにSnowflakeアカウントロケータとアカウント名を追加して、データコンシューマーをクリーンルームに追加します。Snowflakeアカウント名は<ORGANIZATION>.<ACCOUNT_NAME>の形式である必要があります。

注釈

以下のプロシージャを呼び出すには、最初に provider.set_default_release_directive を使用してリリースディレクティブを設定していることを確認してください。次を使用した最新のバージョンとパッチが表示されます。

show versions in application package samooha_cleanroom_Machine_Learning_Demo_clean_room;

Copy

call samooha_by_snowflake_local_db.provider.add_consumers($cleanroom_name, '<CONSUMER_ACCOUNT_LOCATOR>', '<CONSUMER_ACCOUNT_NAME>');
call samooha_By_snowflake_local_db.provider.create_or_update_cleanroom_listing($cleanroom_name);

Copy

複数のコンシューマーアカウントロケーターを、カンマ区切りの文字列として provider.add_consumers 関数に渡すことも、 provider.add_consumers を個別に呼び出すこともできます。

このクリーンルームに追加されたコンシューマーを表示したい場合は、次の手順を呼び出します。

call samooha_by_snowflake_local_db.provider.view_consumers($cleanroom_name);

Copy

最近作成されたクリーンルームを表示したい場合は、以下の手順を使用してください。

call samooha_by_snowflake_local_db.provider.view_cleanrooms();

Copy

作成したクリーンルームについて、得られるインサイトを増やしたい場合は、次の手順を使用します。

call samooha_by_snowflake_local_db.provider.describe_cleanroom($cleanroom_name);

Copy

作成されたクリーンルームは削除することもできます。次のコマンドはクリーンルームを完全に削除するので、以前クリーンルームにアクセスしていたコンシューマーはもうクリーンルームを使用することができません。将来、同じ名前のクリーンルームが必要な場合は、上記のフローを使用して再初期化する必要があります。

call samooha_by_snowflake_local_db.provider.drop_cleanroom($cleanroom_name);

Copy

注釈

これでプロバイダーフローは終了です。コンシューマーアカウントに切り替えて、コンシューマーフローを継続してください。

コンシューマー¶

注釈

以下のコマンドは、コンシューマーアカウントのSnowflakeワークシートで実行する必要があります。

環境の設定¶

use role samooha_app_role;
use warehouse app_wh;

Copy

クリーンルームをインストールする¶

クリーンルーム共有がインストールされると、利用可能なクリーンルームのリストは、以下のコマンドを使用して表示することができます。

call samooha_by_snowflake_local_db.consumer.view_cleanrooms();

Copy

プロバイダーが共有したクリーンルームの名前を割り当てます。

set cleanroom_name = 'Machine Learning Demo Clean room';

Copy

以下のコマンドは、関連するプロバイダーと選択されたクリーンルームを持つコンシューマーアカウントにクリーンルームをインストールします。

この手順には少し時間がかかりますが、通常は30秒程度です。

call samooha_by_snowflake_local_db.consumer.install_cleanroom($cleanroom_name, '<PROVIDER_ACCOUNT_LOCATOR>');

Copy

クリーンルームが設置されると、プロバイダーはクリーンルームの使用を可能にする前に、プロバイダー側でクリーンルームの設定を完了しなければなりません。以下の関数でクリーンルームのステータスを確認できます。有効化されると、以下のRun Analysisコマンドを実行できるようになります。クリーンルームが有効になるまで、通常約1分かかります。

call samooha_by_snowflake_local_db.consumer.is_enabled($cleanroom_name);

Copy

データセットのリンク¶

データプロバイダーのデータを使ってセキュアな計算を行うために、データセットをクリーンルームにリンクすることができます。

call samooha_by_snowflake_local_db.consumer.link_datasets($cleanroom_name, ['samooha_consumer_sample_database.lookalike_modeling.customers']);

Copy

注釈

use role accountadmin;
call samooha_by_snowflake_local_db.consumer.register_db('<DATABASE_NAME>');
use role samooha_app_role;

Copy

分析を実行するには、コンシューマーテーブルを渡す必要があります。クリーンルームに追加したデータセットを表示したい場合は、以下のプロシージャを呼び出します。

call samooha_by_snowflake_local_db.consumer.view_consumer_datasets($cleanroom_name);

Copy

分析を実行する¶

クリーンルームがインストールされたので、「run_analysis」コマンドを使用してプロバイダーによってクリーンルームに追加された分析テンプレートを実行することができます。各フィールドがどのように決定されるかについては、以下のセクションをご参照ください。

「価値の高い」ユーザーは、以下のクエリのfilter_clauseで識別されます。 c.SALES_DLR がユーザー一人当たりの売上高を表しているとしたら、有効なフィルターは c.HIGH_VALUE >.4000 のようになります。

注釈

分析を実行する前に、ウェアハウスサイズを変更したり、テーブルが大きい場合は新しい大きなウェアハウスサイズを使用することができます。

call samooha_by_snowflake_local_db.consumer.run_analysis(
    $cleanroom_name,                     -- cleanroom
    'prod_custom_lookalike_template',    -- template name

    ['samooha_consumer_sample_database.lookalike_modeling.customers'],                -- consumer tables

    ['samooha_provider_sample_database.lookalike_modeling.customers'],                -- provider tables

    object_construct(                    -- Rest of the custom arguments needed for the template
        'dimensions', ['p.STATUS', 'p.AGE', 'p.REGION_CODE', 'p.DAYS_ACTIVE', 'p.INCOME_BRACKET'], -- Features used in training

        'filter_clause', 'c.SALES_DLR > 2000' -- Consumer flag for which customers are considered high value
    )
);

Copy

run_analysisの入力を決定する方法¶

分析を実行するには、run_analysis関数にいくつかのパラメータを渡す必要があります。このセクションでは、どのようなパラメータを渡すかを決定する方法を説明します。

テンプレート名

まず、以下のプロシージャを呼び出すことで、サポートされている分析テンプレートを確認できます。

call samooha_by_snowflake_local_db.consumer.view_added_templates($cleanroom_name);

Copy

テンプレートを使って分析を実行する前に、どのような引数を指定し、どのような型が期待されるかを知っておく必要があります。カスタムテンプレートについては、以下のように実行できます。

call samooha_by_snowflake_local_db.consumer.view_template_definition($cleanroom_name, 'prod_custom_lookalike_template');

Copy

これには、異なるSQL Jinjaのパラメータが大量に含まれることもあります。以下の機能は、SQL Jinjaテンプレートを解析し、run_analysisで指定する必要がある引数をリストに抽出します。

call samooha_by_snowflake_local_db.consumer.get_arguments_from_template($cleanroom_name, 'prod_custom_lookalike_template');

Copy

データセット名

プロバイダーによってクリーンルームに追加されたデータセット名を表示したい場合は、次の手順を呼び出します。クリーンルームのセキュリティ特性上、プロバイダーがクリーンルームに追加したデータセットは表示できません。

call samooha_by_snowflake_local_db.consumer.view_provider_datasets($cleanroom_name);

Copy

また、クリーンルームにリンクしたテーブルは、以下の呼び出しで確認することができます。

call samooha_by_snowflake_local_db.consumer.view_consumer_datasets($cleanroom_name);

Copy

列のディメンションと測定。

分析を実行する際、特定の列でフィルタリング、グループ化、集計を行いたい場合があります。プロバイダーによってクリーンルームに追加された列ポリシーを表示したい場合は、次の手順を呼び出します。

call samooha_by_snowflake_local_db.consumer.view_provider_column_policy($cleanroom_name);

Copy

よくあるエラー

実行分析の結果、 Not approved: unauthorized columns used エラーが表示される場合は、プロバイダーが設定した結合ポリシーと列ポリシーを再度表示することが推奨されます。

call samooha_by_snowflake_local_db.consumer.view_provider_join_policy($cleanroom_name);
call samooha_by_snowflake_local_db.consumer.view_provider_column_policy($cleanroom_name);

Copy

また、プライバシーの予算を使い果たしたため、これ以上クエリを実行できなくなる可能性もあります。残りのプライバシー予算は以下のコマンドで表示できます。毎日リセットされますが、クリーンルームのプロバイダーが希望すればリセットすることもできます。

call samooha_by_snowflake_local_db.consumer.view_remaining_privacy_budget($cleanroom_name);

Copy

差分プライバシーがクリーンルームで有効になっているかどうかは、次のAPIで確認できます。

call samooha_by_snowflake_local_db.consumer.is_dp_enabled($cleanroom_name);

Copy

Snowflakeデータクリーンルーム：機械学習¶

前提条件¶

プロバイダー¶

環境の設定¶

クリーンルームの作成¶

クロスリージョンの共有¶

データセットをリンクし、データセットの結合ポリシーを設定します。¶

クリーンルームに機密機械学習Pythonコードを追加する¶

カスタムLookalike Modelingテンプレートを追加する¶

各テーブルに列ポリシーを設定する¶

コンシューマーと共有する¶

コンシューマー¶

環境の設定¶

クリーンルームをインストールする¶

データセットのリンク¶

分析を実行する¶

run_analysisの入力を決定する方法¶