Snowflake Data Clean Rooms: 머신 러닝

이 항목에서는 클린룸을 프로그래밍 방식으로 설정하고, 이를 컨슈머와 공유하고, 클린룸 내에서 고급 머신 러닝 알고리즘을 통해 분석을 실행하는 데 필요한 공급자 및 컨슈머 흐름에 대해 설명합니다. 공급자는 랜덤 포레스트 기반 XGBoost 머신 러닝 알고리즘을 구현하는 보안 Python 코드를 클린룸에 로드합니다. 이는 완전히 기밀로 유지되며 공급자에게만 표시됩니다. 컨슈머는 클린룸에 로드된 Python 머신 러닝 코드를 볼 수 없습니다.

이 흐름에는 다음이 포함됩니다.

  1. 공급자:

    a. Lookalike Modeling 분석을 실행하는 사용자 지정 템플릿을 추가합니다.

    b. XGBoost 를 활용하여 머신 러닝 Python 코드 기반 템플릿을 보안 방식으로 추가합니다.

    c. 사용자 지정 템플릿을 사용하여 클린룸 내부에서 머신 러닝 UDFs를 호출합니다.

  2. 컨슈머:

    a. 공급자가 정의한 ML 함수를 사용하는 사용자 지정 템플릿을 실행합니다.

Lookalike Modeling 은 컨슈머가 공급자의 데이터에서 고가치 고객을 대상으로 통계 모델을 훈련하여 “높은 가치” 고객을 찾아내는 분석 유형입니다. 이 모델은 컨슈머가 지정한 플래그를 사용하여 특정 임계값 이상의 지출을 한 사용자와 같은 고가치 사용자를 컨슈머의 데이터 세트에 표시합니다. 그런 다음 훈련된 모델을 사용하여 공급자의 데이터 중 컨슈머에게 잠재적으로 “높은 가치”를 제공할 수 있는 고객을 추론합니다.

전제 조건

이 흐름을 완료하려면 두 개의 별도 Snowflake 계정이 필요합니다. 첫 번째 계정을 사용하여 공급자의 명령을 실행한 다음 두 번째 계정으로 전환하여 컨슈머의 명령을 실행합니다.

공급자

참고

다음 명령은 공급자 계정의 Snowflake 워크시트에서 실행해야 합니다.

환경 설정

개발자 APIs를 사용하여 Snowflake Data Clean Room으로 작업하기 전에 다음 명령을 실행하여 Snowflake 환경을 설정합니다. SAMOOHA_APP_ROLE 역할이 없는 경우 계정 관리자에게 문의하십시오.

use role samooha_app_role;
use warehouse app_wh;
Copy

클린룸 만들기

클린룸의 이름을 지정합니다. 기존 클린룸 이름과 충돌하지 않도록 새 클린룸 이름을 입력합니다. 클린룸 이름에는 영숫자 만 사용할 수 있습니다. 클린룸 이름에는 공백과 밑줄 외의 특수문자를 사용할 수 없습니다.

set cleanroom_name = 'Machine Learning Demo Clean room';
Copy

위에서 설정한 클린룸 이름으로 새로운 클린룸을 만들 수 있습니다. 위에 설정한 클린룸 이름이 기존 클린룸으로 이미 존재하는 경우 이 프로세스는 실패합니다.

이 절차의 실행에는 일반적으로 약 30초 정도가 더 걸릴 수 있습니다.

provider.cleanroom_init 의 두 번째 인자는 클린룸의 분포입니다. 이는 INTERNAL 또는 EXTERNAL일 수 있습니다. 테스트 목적으로 클린룸을 같은 조직의 계정과 공유하는 경우 INTERNAL을 사용하여 애플리케이션 패키지를 공동 작업자에게 릴리스하기 전에 수행해야 하는 자동화된 보안 검사를 우회할 수 있습니다. 그러나 이 클린룸을 다른 조직의 계정과 공유하는 경우에는 EXTERNAL 클린룸 배포를 사용해야 합니다.

call samooha_by_snowflake_local_db.provider.cleanroom_init($cleanroom_name, 'INTERNAL');
Copy

보안 검사 상태를 보려면 다음을 사용합니다.

call samooha_by_snowflake_local_db.provider.view_cleanroom_scan_status($cleanroom_name);
Copy

클린룸을 만든 후에는 공동 작업자와 공유하기 전에 릴리스 지시문을 설정해야 합니다. 그러나 배포가 EXTERNAL로 설정된 경우에는 먼저 보안 검사가 완료될 때까지 기다린 후 릴리스 지시문을 설정해야 합니다. 나머지 단계를 계속 실행하고 스캔이 실행되는 동안 provider.create_cleanroom_listing 단계 전에 여기로 돌아올 수 있습니다.

릴리스 지시문을 설정하려면 다음을 호출합니다.

call samooha_by_snowflake_local_db.provider.set_default_release_directive($cleanroom_name, 'V1_0', '0');
Copy

리전 간 공유

사용자의 계정과 다른 리전에 있는 Snowflake 고객과 클린룸을 공유하려면 클라우드 간 자동 복제를 활성화해야 합니다. 다른 리전의 컨슈머와 협업하는 데 따른 추가 비용에 대한 자세한 내용은 클라우드 간 자동 복제 비용을 참조하십시오.

개발자 APIs를 사용할 때, 리전 간 공유를 활성화하는 것은 2단계 프로세스입니다.

  1. ACCOUNTADMIN 역할이 있는 Snowflake 관리자는 Snowflake 계정에 대해 클라우드 간 자동 복제를 사용 설정할 수 있습니다. 자세한 지침은 다른 리전의 계정과 협업을 참조하십시오.

  2. provider.enable_laf_for_cleanroom 명령을 실행하여 클린룸에 클라우드 간 자동 복제를 사용하도록 설정합니다. 예:

    call samooha_by_snowflake_local_db.provider.enable_laf_for_cleanroom($cleanroom_name);
    
    Copy

클린룸에 대해 클라우드 간 자동 복제를 활성화한 후에는 평소와 같이 provider.create_cleanroom_listing 명령을 사용하여 목록에 컨슈머를 추가할 수 있습니다. 목록은 필요에 따라 원격 클라우드 및 리전에 자동으로 복제됩니다.

클린룸에 기밀 머신 러닝 Python 코드를 추가합니다.

이 섹션에서는 lookalike ML 작업을 위해 일부 Python 함수를 클린룸에 로드하는 방법을 설명합니다. 클린룸에 설치된 모든 Python 함수는 완전히 기밀로 유지됩니다. 컨슈머에게는 표시되지 않습니다.

다음 API를 사용하면 Python 함수를 클린룸에 인라인 함수로 직접 정의할 수 있습니다. 또는 클린룸 스테이지에 업로드한 스테이징된 파일에서 Python을 로드할 수 있습니다. 예제는 API 참조 가이드를 참조하십시오.

참고

이 구현은 ARRAY_AGG가 집계할 수 있는 데이터의 총량(즉, 16MB)에 대한 Snowflake 크기 제약 조건에 의해 제한된다는 점에 유의하십시오. 일괄 처리를 사용하여 임의의 크기의 데이터 세트로 확장할 수 있는 일괄 처리 및 스트리밍 모델을 활용하는 구현은 요청 시 제공 됩니다.

call samooha_by_snowflake_local_db.provider.load_python_into_cleanroom(
    $cleanroom_name, 
    'lookalike_train',
    ['input_data variant', 'labels variant'],
    ['pandas', 'numpy', 'xgboost'],
    'variant',
    'train',
    $$
import numpy as np
import pandas as pd
import xgboost
from sklearn import preprocessing
import sys
import os
import pickle
import codecs
import threading


class TrainXGBoostClassifier(object):
    def __init__(self):
        self.model = None
        self._params = {
            "objective": "binary:logistic",
            "max_depth": 3,
            "nthread": 1,
            "eval_metric": "auc",
        }
        self.num_boosting_rounds = 10

    def get_params(self):
        if self.model is not None and "updater" not in self._params:
            self._params.update(
                {"process_type": "update", "updater": "refresh", "refresh_leaf": True}
            )
        return self._params

    def train(self, X, y):
        """
        Train the model in a threadsafe way
        """
        # pick only the categorical attributes
        categorical = X.select_dtypes(include=[object])

        # fit a one-hot-encoder to convert categorical features to binary features (required by XGBoost)
        ohe = preprocessing.OneHotEncoder()
        categorical_ohe = ohe.fit_transform(categorical)
        self.ohe = ohe

        # get the rest of the features and add them to the binary features
        non_categorical = X.select_dtypes(exclude=[object])
        train_x = np.concatenate((categorical_ohe.toarray(), non_categorical.to_numpy()), axis=1)

        xg_train = xgboost.DMatrix(train_x, label=y)

        params = self.get_params()
        params["eval_metric"] = "auc"
        evallist = [(xg_train, "train")]
        evals_result = {}

        self.model = xgboost.train(
            params, xg_train, self.num_boosting_rounds, evallist, evals_result=evals_result
        )

        self.evals_result = evals_result

    def __dump_model(self, model):
        """
        Save down the model as a json string to load up for scoring/inference
        """
        pickle_jar = codecs.encode(pickle.dumps([model, self.ohe]), "base64").decode()
        return pickle_jar

    def dump_model(self):
        """
        Save down the model as a json string to load up for scoring/inference
        """
        if self.model is not None:
            return self.__dump_model(self.model)
        else:
            raise ValueError("Model needs to be trained first")


def train(d1, l1):

    # get take training features and put them in a pandas dataframe
    X = pd.DataFrame(d1)

    # get the labels into a Numpy array
    y = np.array(l1)

    trainer = TrainXGBoostClassifier()
    trainer.train(X, y)

    # return training stats, accuracy, and the pickled model and pickled one-hot-encoder
    return {
        "total_rows": len(d1),
        "total_bytes_in": sys.getsizeof(d1),
        "model": trainer.dump_model(),
        "iteration": trainer.num_boosting_rounds,
        "auc": np.max(trainer.evals_result["train"]["auc"]),
        "error": 1 - np.max(trainer.evals_result["train"]["auc"])
    }    
    $$
);
Copy

이제 클린룸에 채점 함수를 설치해 보겠습니다.

call samooha_by_snowflake_local_db.provider.load_python_into_cleanroom(
    $cleanroom_name, 
    'lookalike_score',
    ['pickle_jar variant', 'emails variant', 'features variant'],
    ['pandas', 'numpy', 'xgboost', 'scikit-learn'],
    'string',
    'score',
    $$
import numpy as np
import pandas as pd
import xgboost as xgb
import pickle
import codecs
import json


def score(model, emails, features):
    # load model
    model = model[0] if not isinstance(model, str) else model
    model = pickle.loads(codecs.decode(model.encode(), "base64"))

    # retrieve the XGBoost trainer from the pickle jar
    bst = model[0]

    # retrieve the fitted one-hot-encoder from the pickle jar
    ohe2 = model[1]

    # create pandas dataframe from the inference features
    Y = pd.DataFrame(features)

    # select the categorical attributes and one-hot-encode them
    Y1 = Y.select_dtypes(include=[object])
    Y2 = ohe2.transform(Y1)

    # select the non-categorical attributes
    Y3 = Y.select_dtypes(exclude=[object])

    # join the results of the one-hot encoding to the rest of the attributes
    Y_pred = np.concatenate((Y2.toarray(), Y3.to_numpy()), axis=1)

    # inference
    dscore = xgb.DMatrix(Y_pred)
    pred = bst.predict(dscore)

    retval = list(zip(np.array(emails), list(map(str, pred))))
    retval = [{"email": r[0], "score": r[1]} for r in retval]
    return json.dumps(retval)  
    $$
);
Copy

참고

클린룸에 Python을 로드하면 클린룸에 새로운 패치가 생성됩니다. 클린룸 배포가 EXTERNAL로 설정된 경우 보안 검사가 완료될 때까지 기다린 다음 다음을 사용하여 기본 릴리스 지시문을 업데이트해야 합니다.

-- See the versions available inside the cleanroom
show versions in application package samooha_cleanroom_Machine_Learning_Demo_clean_room;

-- Once the security scan is approved, update the release directive to the latest version
call samooha_by_snowflake_local_db.provider.set_default_release_directive($cleanroom_name, 'V1_0', '2');
Copy

사용자 지정 Lookalike Modeling 템플릿 추가

클린룸에 사용자 지정 분석 템플릿을 추가하려면 공급자 측과 컨슈머 측 모두에 테이블 이름을 위한 자리표시자와 공급자 측의 조인 열이 필요합니다. SQL Jinja 템플릿에서는 다음 자리 표시자가 항상 있어야 합니다.

  • source_table: 공급자의 테이블 이름 배열

  • my_table: 컨슈머의 테이블 이름 배열

테이블 이름은 이러한 변수를 사용하여 동적으로 만들 수 있지만, 원하는 경우 클린룸에 연결된 뷰의 이름을 사용하여 템플릿에 하드코딩할 수도 있습니다. 원하는 경우 열 이름을 템플릿에 하드코딩하거나 매개 변수를 통해 동적으로 설정할 수 있습니다. 매개 변수를 통해 설정한 경우 열 정책에 대해 확인하려면 배열이어야 하는 매개 변수 dimensions 또는 measure_column 을 호출해야 한다는 점을 기억하십시오. 이를 템플릿에 SQL Jinja 매개 변수로 추가하면 나중에 컨슈머가 쿼리할 때 전달할 수 있습니다. 조인 정책은 컨슈머가 권한이 있는 열 이외의 열에 조인할 수 없도록 보장합니다.

또는 사용자 지정 SQL Jinja 템플릿의 모든 인자가 다음 필터를 사용하여 조인 및 열 정책을 준수하는지 확인할 수 있습니다.

  • join_policy: 문자열 값 또는 필터 절이 조인 정책을 준수하는지 확인합니다.

  • column_policy: 문자열 값 또는 필터 절이 열 정책을 준수하는지 확인합니다.

  • join_and_column_policy: 필터 절에서 조인에 사용된 열이 조인 정책을 준수하는지, 필터로 사용된 열이 열 정책을 준수하는지 확인합니다.

예를 들어, {{ provider_id | sqlsafe | join_policy }} 절에서, p.HEM 의 입력을 구문 분석하여 p.HEM 이 조인 정책에 있는지 확인합니다. 참고: sqlsafe 필터는 공동 작업자가 템플릿에 순수 SQL을 삽입할 수 있도록 허용하므로 주의해서 사용해야 합니다.

참고

모든 공급자/컨슈머 테이블은 이러한 인자를 사용하여 참조되어야 합니다. 왜냐하면 클린룸에 실제로 연결된 보안 뷰의 이름이 테이블 이름과 다르기 때문입니다. 중요한 사항으로, 공급자 테이블 별칭은 반드시 p(또는 p1), p2, p3, p4 등이어야 하며, 컨슈머 테이블 별칭은 반드시 c(또는 c1), c2, c3 등이어야 합니다. 이는 클린룸의 보안 정책을 시행하기 위해 필요합니다.

이 함수는 이름이 동일한 기존 템플릿을 모두 재정의합니다. 기존 템플릿을 업데이트하려면 업데이트된 템플릿으로 이 함수를 다시 호출하면 하면 됩니다.

공급자 데이터 세트에서 기능 세트가 선택되고, 컨슈머 데이터 세트에서 레이블 집합과 “높은 값” 플래그(label_value라고 함)가 선택됩니다. 그런 다음 이 두 테이블은 이메일에서 내부 결합되어 랜덤 포레스트 훈련 알고리즘에 전달됩니다. 마지막으로, 모델 훈련 단계의 출력은 추론 함수에 전달되며, 추론 함수는 훈련된 모델을 사용하여 컨슈머 데이터 세트에 없는 공급자 고객 중 “높은 가치”를 가질 수 있는 고객을 “추론”합니다. 그런 개인의 개수 가 모델 오류와 함께 반환됩니다.

고객이 “높은 가치”를 가질 가능성이 높은 점수를 결정하는 임계값은 템플릿에서 수동으로 0.5로 설정됩니다. 클린룸에 템플릿을 추가할 때 이를 쉽게 변경할 수 있습니다.

call samooha_by_snowflake_local_db.provider.add_custom_sql_template(
    $cleanroom_name, 
    'prod_custom_lookalike_template', 
    $$
WITH
features AS (
    SELECT
        p.hashed_email,
        array_construct(identifier({{ dimensions[0] | column_policy }}) {% for feat in dimensions[1:] %} , identifier({{ feat | column_policy }}) {% endfor %}) as features
    FROM
        identifier({{ source_table[0] }}) as p
),
labels AS (
    SELECT
        c.hashed_email,
        {{ filter_clause | sqlsafe | column_policy }} as label_value
    FROM
        identifier({{ my_table[0] }}) as c
),
trained_model AS (
    SELECT
        train_out:model::varchar as model,
        train_out:error::float as error
    FROM (
      SELECT
        cleanroom.lookalike_train(array_agg(f.features), array_agg(l.label_value)) as train_out
      FROM features f, labels l
      WHERE f.hashed_email = l.hashed_email
    )
),
inference_output AS (
    SELECT
        MOD(seq4(), 100) as batch,
        cleanroom.lookalike_score(
            array_agg(distinct t.model), 
            array_agg(p.hashed_email), 
            array_agg(array_construct( identifier({{ dimensions[0] | column_policy }}) {% for feat in dimensions[1:] %} , identifier({{ feat | column_policy }}) {% endfor %}) )
        ) as scores
    FROM trained_model t, identifier({{ source_table[0] }}) p
    WHERE p.hashed_email NOT IN (SELECT c.hashed_email FROM identifier({{ my_table[0] }}) c)
    GROUP BY batch
),
processed_output AS (
    SELECT value:email::string as email, value:score::float as score FROM (select scores from inference_output), lateral flatten(input => parse_json(scores))
)
SELECT p.audience_size, t.error from (SELECT count(distinct email) as audience_size FROM processed_output WHERE score > 0.5) p, trained_model t;
    $$
);  
Copy

참고

위의 samooha_by_snowflake_local_db.provider.add_custom_sql_template 프로시저 호출에 차등 개인정보 보호 민감도를 마지막 매개 변수로 추가할 수 있습니다(추가하지 않으면 기본값은 1).

현재 클린룸에서 활성화된 템플릿을 보려면 다음 프로시저를 호출합니다. 분석에 차등 개인정보 보호 보장을 활성화하도록 수정할 수 있습니다. 유사한 패턴을 사용자가 선택한 사용자 지정 템플릿에 통합할 수 있습니다.

call samooha_by_snowflake_local_db.provider.view_added_templates($cleanroom_name);
Copy

각 테이블에 열 정책 설정

테이블의 내부에 있는 열을 확인하기 위해 연결된 데이터를 표시합니다. 상위 10개 행을 보려면 다음 프로시저를 호출합니다.

select * from samooha_provider_sample_database.lookalike_modeling.customers limit 10;
Copy

모든 테이블과 템플릿 조합에 대해 그룹화, 집계(예: SUM/AVG) 및 일반적으로 분석에 사용할 열을 설정합니다. 이를 통해 유연성이 제공되므로 기본 템플릿에 따라 동일한 테이블에서도 다른 열 선택을 허용할 수 있습니다. 이 작업은 템플릿을 추가한 후에만 호출해야 합니다.

열 정책은 바꾸기 전용 이므로 함수가 다시 호출되면 이전에 설정된 열 정책이 새 정책으로 완전히 바뀝니다.

컨슈머가 이러한 열을 기준으로 그룹화할 수 없도록 하려면 이메일, HEM 또는 RampID 등과 같은 ID 열에는 열 정책을 사용해서는 안 됩니다. 프로덕션 환경에서는 시스템이 지능적으로 PII 열을 추론하여 이 작업을 차단하지만 샌드박스 환경에서는 이 기능을 사용할 수 없습니다. 상태, 연령대, 리전 코드, 활성 일수 등 컨슈머가 집계하고 그룹화할 수 있는 열에만 사용해야 합니다.

컨슈머 분석 요청에 대한 검사를 수행하기 위해 “column_policy” 및 “join_policy”가 SQL Jinja 템플릿에서 모든 열 이름을 dimensions 또는 measure_columns 로 참조해야 합니다. 사용자 지정 SQL Jinja 템플릿에서 확인할 열을 참조할 때 이 태그를 사용합니다.

call samooha_by_snowflake_local_db.provider.set_column_policy($cleanroom_name, [
    'prod_custom_lookalike_template:samooha_provider_sample_database.lookalike_modeling.customers:status', 
    'prod_custom_lookalike_template:samooha_provider_sample_database.lookalike_modeling.customers:age', 
    'prod_custom_lookalike_template:samooha_provider_sample_database.lookalike_modeling.customers:region_code', 
    'prod_custom_lookalike_template:samooha_provider_sample_database.lookalike_modeling.customers:days_active', 
    'prod_custom_lookalike_template:samooha_provider_sample_database.lookalike_modeling.customers:income_bracket', 
    'prod_custom_lookalike_template:samooha_provider_sample_database.lookalike_modeling.customers:household_size', 
    'prod_custom_lookalike_template:samooha_provider_sample_database.lookalike_modeling.customers:gender'
]);
Copy

클린룸에 추가된 열 정책을 보려면 다음 프로시저를 호출합니다.

call samooha_by_snowflake_local_db.provider.view_column_policy($cleanroom_name);
Copy

컨슈머와 공유

마지막으로, 아래와 같이 Snowflake 계정 로케이터와 계정 이름을 추가하여 클린룸에 데이터 컨슈머를 추가합니다. Snowflake 계정 이름은 <ORGANIZATION>.<ACCOUNT_NAME> 형식이어야 합니다.

참고

다음 프로시저를 호출하려면 먼저 provider.set_default_release_directive 를 사용하여 릴리스 지시문을 설정해야 합니다. 다음을 사용하여 최신 버전과 패치를 확인할 수 있습니다.

show versions in application package samooha_cleanroom_Machine_Learning_Demo_clean_room;
Copy
call samooha_by_snowflake_local_db.provider.add_consumers($cleanroom_name, '<CONSUMER_ACCOUNT_LOCATOR>', '<CONSUMER_ACCOUNT_NAME>');
call samooha_By_snowflake_local_db.provider.create_cleanroom_listing($cleanroom_name, '<CONSUMER_ACCOUNT_NAME>');
Copy

여러 개의 컨슈머 계정 로케이터를 provider.add_consumers 함수에 쉼표로 구분된 문자열로 전달하거나 provider.add_consumers 에 대한 별도의 호출로 전달할 수 있습니다.

이 클린룸에 추가된 컨슈머를 보려면 다음 프로시저를 호출합니다.

call samooha_by_snowflake_local_db.provider.view_consumers($cleanroom_name);
Copy

최근에 생성된 클린룸을 보려면 다음 절차를 따릅니다.

call samooha_by_snowflake_local_db.provider.view_cleanrooms();
Copy

자신이 만든 클린룸에 대해 더 자세히 알아보려면 다음 절차를 따릅니다.

call samooha_by_snowflake_local_db.provider.describe_cleanroom($cleanroom_name);
Copy

생성된 클린룸도 삭제할 수 있습니다. 다음 명령은 클린룸을 완전히 삭제하므로 이전에 클린룸을 사용할 수 있었던 모든 컨슈머는 더 이상 클린룸을 사용할 수 없습니다. 나중에 이름이 동일한 클린룸이 필요한 경우 위의 흐름을 사용하여 다시 초기화해야 합니다.

call samooha_by_snowflake_local_db.provider.drop_cleanroom($cleanroom_name);
Copy

참고

이제 공급자 흐름이 완료되었습니다. 컨슈머 흐름을 계속하려면 컨슈머 계정으로 전환합니다.

컨슈머

참고

다음 명령은 컨슈머 계정의 Snowflake 워크시트에서 실행해야 합니다.

환경 설정

개발자 APIs를 사용하여 Snowflake Data Clean Room으로 작업하기 전에 다음 명령을 실행하여 Snowflake 환경을 설정합니다. SAMOOHA_APP_ROLE 역할이 없는 경우 계정 관리자에게 문의하십시오.

use role samooha_app_role;
use warehouse app_wh;
Copy

클린룸 설치

클린룸 공유가 설치되면 아래 명령을 사용하여 사용 가능한 클린룸 목록을 볼 수 있습니다.

call samooha_by_snowflake_local_db.consumer.view_cleanrooms();
Copy

공급자가 사용자와 공유한 클린룸의 이름을 지정합니다.

set cleanroom_name = 'Machine Learning Demo Clean room';
Copy

다음 명령은 연결된 공급자와 선택된 클린룸을 사용하여 컨슈머 계정에 클린룸을 설치합니다.

이 절차의 실행에는 일반적으로 약 30초 정도가 더 걸릴 수 있습니다.

call samooha_by_snowflake_local_db.consumer.install_cleanroom($cleanroom_name, '<PROVIDER_ACCOUNT_LOCATOR>');
Copy

클린룸이 설치되면 공급자는 클린룸을 사용하기 전에 공급자 측에서 클린룸 설치를 완료해야 합니다. 아래 함수을 사용하면 클린룸의 상태를 확인할 수 있습니다. 해당 기능이 활성화되면 아래의 Run Analysis 명령을 실행할 수 있습니다. 일반적으로 클린룸이 활성화되려면 약 1분이 걸립니다.

call samooha_by_snowflake_local_db.consumer.is_enabled($cleanroom_name);
Copy

분석 실행

이제 클린룸이 설치되었으므로 “run_analysis” 명령을 사용하여 공급자가 클린룸에 추가한 분석 템플릿을 실행할 수 있습니다. 아래 섹션에서 각 필드가 어떻게 결정되는지 확인할 수 있습니다.

“높은 가치” 사용자는 아래 쿼리의 filter_clause로 식별됩니다. c.SALES_DLR 가 사용자당 판매량을 나타내는 경우, 유효한 필터는 c.HIGH_VALUE > 4000 과 같을 수 있습니다.

참고

분석을 실행하기 전에 웨어하우스 크기를 변경하거나, 대규모 테이블의 경우 더 크고 새로운 웨어하우스 크기를 사용할 수 있습니다.

call samooha_by_snowflake_local_db.consumer.run_analysis(
    $cleanroom_name,                     -- cleanroom
    'prod_custom_lookalike_template',    -- template name

    ['samooha_consumer_sample_database.lookalike_modeling.customers'],                -- consumer tables

    ['samooha_provider_sample_database.lookalike_modeling.customers'],                -- provider tables

    object_construct(                    -- Rest of the custom arguments needed for the template
        'dimensions', ['p.STATUS', 'p.AGE', 'p.REGION_CODE', 'p.DAYS_ACTIVE', 'p.INCOME_BRACKET'], -- Features used in training

        'filter_clause', 'c.SALES_DLR > 2000' -- Consumer flag for which customers are considered high value
    )
);
Copy

run_analysis에 대한 입력을 결정하는 방법

분석을 실행하려면 run_analysis 함수에 몇 가지 매개 변수를 전달해야 합니다. 이 섹션에서는 전달할 매개 변수를 결정하는 방법을 설명합니다.

템플릿 이름

먼저, 다음 프로시저를 호출하여 지원되는 분석 템플릿을 볼 수 있습니다.

call samooha_by_snowflake_local_db.consumer.view_added_templates($cleanroom_name);
Copy

템플릿을 사용하여 분석을 실행하기 전에 어떤 인자를 지정해야 하는지, 어떤 유형이 예상되는지 알아야 합니다. 사용자 지정 템플릿의 경우 다음을 실행할 수 있습니다.

call samooha_by_snowflake_local_db.consumer.view_template_definition($cleanroom_name, 'prod_custom_lookalike_template');
Copy

여기에는 많은 수의 다양한 SQL Jinja 매개 변수가 포함되는 경우가 많습니다. 다음 기능은 SQL Jinja 템플릿의 구문을 분석하고 run_analysis에 지정해야 하는 인자를 목록으로 추출합니다.

call samooha_by_snowflake_local_db.consumer.get_arguments_from_template($cleanroom_name, 'prod_custom_lookalike_template');
Copy

데이터 세트 이름

공급자가 클린룸에 추가한 데이터 세트 이름을 보려면 다음 프로시저를 호출합니다. 클린룸의 보안 속성으로 인해 공급자가 클린룸에 추가한 데이터 세트에 있는 데이터를 볼 수 없습니다.

call samooha_by_snowflake_local_db.consumer.view_provider_datasets($cleanroom_name);
Copy

다음 호출을 사용하면 클린룸에 연결한 테이블도 볼 수 있습니다.

call samooha_by_snowflake_local_db.consumer.view_consumer_datasets($cleanroom_name);
Copy

차원 및 측정 열

분석을 실행하는 동안 특정 열을 기준으로 필터링, 그룹화 및 집계를 수행할 수 있습니다. 공급자가 클린룸에 추가한 열 정책을 보려면 다음 프로시저를 호출합니다.

call samooha_by_snowflake_local_db.consumer.view_provider_column_policy($cleanroom_name);
Copy

일반적인 오류

실행한 분석의 결과로 승인되지 않음: 권한이 없는 열이 사용됨 오류가 발생하는 경우 공급자가 설정한 조인 정책 및 열 정책을 다시 확인해 보십시오.

call samooha_by_snowflake_local_db.consumer.view_provider_join_policy($cleanroom_name);
call samooha_by_snowflake_local_db.consumer.view_provider_column_policy($cleanroom_name);
Copy

또한 개인정보 보호 예산이 소진되어 더 이상 쿼리를 실행할 수 없을 수도 있습니다. 잔여 개인정보 보호 예산은 아래 명령을 사용하여 볼 수 있습니다. 이는 매일 재설정되며, 원하는 경우 클린룸 공급자가 재설정할 수도 있습니다.

call samooha_by_snowflake_local_db.consumer.view_remaining_privacy_budget($cleanroom_name);
Copy

다음 API를 사용하여 클린룸에 대해 차등 개인정보 보호가 활성화되었는지 확인할 수 있습니다.

call samooha_by_snowflake_local_db.consumer.is_dp_enabled($cleanroom_name);
Copy