Snowflake Data Clean Rooms: Sichere Python-basierte Vorlagen

Unter diesem Thema werden die Anbieter- und Verbraucher-Workflows beschrieben, die erforderlich sind, um einen Reinraum programmgesteuert einzurichten, ihn für einen Verbraucher freizugeben und darin Analysen unter Verwendung von in den Reinraum geladenen, sicheren Python-UDFs auszuführen. Bei diesem Workflow lädt ein Anbieter sicheren Python-Code in den Reinraum und verwendet dabei eine API, die den zugrunde liegenden Python-Code vor dem Verbraucher völlig geheim hält.

Bei diesem Workflow werden zwei Python-Funktionen in den Reinraum geladen, um eine benutzerdefinierte Datenverarbeitung und Datenaggregation durchzuführen. Diese Python-UDFs werden dann innerhalb einer benutzerdefinierten SQL Jinja-Vorlage aufgerufen. Die Vorlage selbst berechnet eine Aggregation entlang einer benutzerdefinierten Gruppierung, die von den Python-UDFs erstellt wurde.

Die wichtigsten Aspekte dieses Workflows sind neben den oben erwähnten die folgenden:

  1. Anbieter:

    a. Sicheres Laden von zwei vertraulichen Python-UDFs in einen neuen Reinraum

    b. Erstellen einer benutzerdefinierten SQL Jinja-Analysevorlage unter Verwendung der Python UDFs

    c. Freigeben dieser für einen Verbraucher

  2. Verbraucher:

    a. Prüfen der im Reinraum bereitgestellten Vorlage

    b. Ausführen einer Analyse innerhalb des Reinraums unter Verwendung der Vorlage

Voraussetzungen

Sie benötigen zwei separate Snowflake-Konten, um diesen Workflow durchführen zu können. Verwenden Sie das erste Konto, um die Befehle des Anbieters auszuführen, und wechseln Sie dann zum zweiten Konto, um die Befehle des Verbrauchers auszuführen.

Anbieter

Bemerkung

Die folgenden Befehle sollten in einem Snowflake-Arbeitsblatt im Anbieterkonto ausgeführt werden.

Umgebung einrichten

Führen Sie die folgenden Befehle aus, um die Snowflake-Umgebung einzurichten, bevor Sie Entwickler-APIs für die Arbeit mit einem Snowflake Data Clean Room verwenden. Wenn Sie nicht über die Rolle SAMOOHA_APP_ROLE verfügen, wenden Sie sich an Ihren Kontoadministrator.

use role samooha_app_role;
use warehouse app_wh;
Copy

Reinraum erstellen

Erstellen Sie einen Namen für den Reinraum. Geben Sie einen neuen Reinraumnamen ein, um Kollisionen mit bestehenden Reinraumnamen zu vermeiden. Beachten Sie, dass Reinraumnamen nur alphanumerisch sein können. Reinraumnamen dürfen keine anderen Sonderzeichen als Leerzeichen und Unterstriche enthalten.

set cleanroom_name = 'Custom Secure Python UDF Demo clean room';
Copy

Sie können einen neuen Reinraum mit dem oben festgelegten Reinraumnamen erstellen. Wenn der oben angegebene Name des Reinraums bereits als bestehender Reinraum existiert, schlägt dieser Vorgang fehl.

Die Ausführung dieser Prozedur dauert etwa 45 Sekunden.

Das zweite Argument von provider.cleanroom_init ist die Distribution des Reinraums. Diese kann entweder INTERNAL oder EXTERNAL sein. Wenn Sie zu Testzwecken den Reinraum für ein Konto in derselben Organisation freigeben, können Sie INTERNAL verwenden, um den automatischen Sicherheitsscan zu umgehen, der stattfinden muss, bevor ein Anwendungspaket für Teilnehmer freigegeben wird. Wenn Sie diesen Reinraum jedoch für ein Konto in einer anderen Organisation freigeben, müssen Sie eine EXTERNAL-Distribution des Reinraums verwenden.

call samooha_by_snowflake_local_db.provider.cleanroom_init($cleanroom_name, 'INTERNAL');
Copy

Um den Status des Sicherheitsscans zu anzuzeigen, führen Sie Folgendes aus:

call samooha_by_snowflake_local_db.provider.view_cleanroom_scan_status($cleanroom_name);
Copy

Sobald Sie Ihren Reinraum erstellt haben, müssen Sie erst seine Release-Richtlinie festlegen, bevor er für andere Teilnehmer freigegeben werden kann. Wenn Ihre Distribution jedoch auf EXTERNAL eingestellt wurde, müssen Sie zunächst den Abschluss der Sicherheitsscan abwarten, bevor Sie die Release-Richtlinie festlegen. Während des Scan läuft, können Sie mit den restlichen Schritten fortfahren und vor dem Schritt provider.create_cleanroom_listing hierher zurückkehren.

Um die Release-Richtlinie festzulegen, rufen Sie Folgendes auf:

call samooha_by_snowflake_local_db.provider.set_default_release_directive($cleanroom_name, 'V1_0', '0');
Copy

Regionsübergreifende Freigabe

Um einen Reinraum für einen Snowflake-Kunden freizugeben, dessen Konto sich in einer anderen Region befindet als Ihr Konto, müssen Sie die Cloud-übergreifende automatische Ausführung (Cross-Cloud Auto-Fulfillment) aktivieren. Informationen zu den zusätzlichen Kosten, die bei der Zusammenarbeit mit Verbrauchern in anderen Regionen anfallen, finden Sie unter Kosten für Cloud-übergreifende automatische Ausführung.

Wenn Sie Entwickler-APIs verwenden, müssen Sie die regionsübergreifende Freigabe in zwei Schritten aktivieren:

  1. Ein Snowflake-Administrator mit der Rolle ACCOUNTADMIN muss die Cloud-übergreifende automatische Ausführung für Ihr Snowflake-Konto aktivieren. Eine Anleitung dazu finden Sie unter [Mit Konten in verschiedenen Regionen zusammenarbeiten] (https://docs.snowflake.com/en/user-guide/cleanrooms/getting-started#collaborate-with-accounts-in-different-regions).

  2. Sie führen den Befehl provider.enable_laf_for_cleanroom aus, um die Cloud-übergreifende automatische Ausführung für den Reinraum zu aktivieren. Beispiel:

    call samooha_by_snowflake_local_db.provider.enable_laf_for_cleanroom($cleanroom_name);
    
    Copy

Nachdem Sie die Cloud-übergreifende automatische Ausführung für den Reinraum aktiviert haben, können Sie mit dem Befehl provider.create_cleanroom_listing wie gewohnt Verbraucher zu Ihrem Freigabeangebot hinzufügen. Das Freigabeangebot wird bei Bedarf automatisch in externe Clouds und Regionen repliziert.

Vertraulichen benutzerdefinierten Python-Code als UDFs in den Reinraum laden

In diesem Abschnitt erfahren Sie, wie Sie die folgenden Python-Funktionen in den Reinraum laden.

  • assign_group -> eine UDF, die das Datenset Zeile für Zeile durchläuft und eine Gruppen-ID zuweist.

  • group_agg -> eine UDF, die nach ID gruppiert und einen Aspekt der Daten aggregiert.

Mit der folgenden API können Sie Ihre Python-Funktionen direkt als Inline-Funktionen im Reinraum definieren. Alternativ können Sie Python auch aus Stagingdateien laden, die Sie in den Reinraum-Stagingbereich hochgeladen haben. Ein Beispiel dafür finden Sie im API-Referenzhandbuch.

Der folgende Code definiert und lädt die assign_group-UDF, die Zeile für Zeile eine Gruppen-ID zuweist:

call samooha_by_snowflake_local_db.provider.load_python_into_cleanroom(
    $cleanroom_name, 
    'assign_group',                      -- Name of the UDF
    ['data variant', 'index integer'],   -- Arguments of the UDF, specified as (variable name, variable type)
    ['numpy', 'pandas'],                 -- Packages UDF will use
    'integer',                           -- Return type of UDF
    'main',                              -- Handler
    $$
import numpy as np
import pandas as pd

def main(data, index):
    df = pd.DataFrame(data) # Just as an example of what we could do
    np.random.seed(0)
    
    # First let's combine the data row and the additional index into a string
    data.append(index)
    data_string = ",".join(str(d) for d in data)

    # Hash it 
    encoded_data_string = data_string.encode()
    hashed_string = hash(encoded_data_string)

    # Return the hashed string
    return hashed_string
    $$
);
Copy

Der folgende Code definiert und lädt die group_agg-UDF, die nach ID gruppiert und einen Aspekt der Daten aggregiert:

call samooha_by_snowflake_local_db.provider.load_python_into_cleanroom(
    $cleanroom_name, 
    'group_agg',              -- Name of the UDF
    ['data variant'],         -- Arguments of the UDF, specified as (variable name, variable type)
    ['pandas'],               -- Packages UDF will use
    'integer',                -- Return type of UDF
    'main',                   -- Handler
    $$
import pandas as pd

def main(s):
    s = pd.Series(s)
    return (s == 'SILVER').sum()
    $$
);
Copy

Bemerkung

Wenn Sie Python in den Reinraum laden, wird ein neuer Patch für den Reinraum erstellt. Wenn Ihre Reinraum-Distribution auf EXTERNAL eingestellt ist, müssen Sie warten, bis der Sicherheitsscan abgeschlossen ist, bevor Sie die Standard-Release-Richtlinie wie folgt aktualisieren:

-- See the versions available inside the clean room
show versions in application package samooha_cleanroom_Custom_Secure_Python_UDF_Demo_clean_room;

-- Once the security scan is approved, update the release directive to the latest version
call samooha_by_snowflake_local_db.provider.set_default_release_directive($cleanroom_name, 'V1_0', '2');
Copy

Python-Code aus Python-Dateien in einem Stagingbereich laden

Bemerkung

Dieser Abschnitt ist eine Alternative zu den obigen Befehlen load_python_into_cleanroom, die Python inline definieren. Diese laden stattdessen Python-Code aus .py-Dateien, die in den Stagingbereich des Reinraums geladen wurden.

Als Alternative zum Definieren können Sie Python-Code auch aus .py-Dateien in einen Stagingbereich laden. Dazu müssen Sie Ihren Code in den Reinraumcode-Stagingbereich hochladen. Entscheidend dabei ist, dass nur die Dateien im Reinraumcode-Stagingbereich im Reinraum zur Verfügung stehen, sodass sich Ihre Dateien nicht an anderer Stelle befinden können. Die Dateien müssen sich im folgenden Stagingbereich befinden:

ls @samooha_cleanroom_Custom_Secure_Python_UDF_Demo_clean_room.app.code;
Copy

Um die UDFs assign_group und group_agg auf diese Weise zu definieren, können Sie die folgenden Skripts in den Reinraum-Stagingbereich hochladen:

Erstellen Sie in Ihrem Basisverzeichnis eine Datei namens ~/assign_group.py, und fügen Sie den folgenden Code ein:

import numpy as np
import pandas as pd


def main(data, index):
    _ = pd.DataFrame(data)  # Just as an example of what we could do
    np.random.seed(0)

    # First let's combine the data row and the additional index into a string
    data.append(index)
    data_string = ",".join(str(d) for d in data)

    # Hash it
    encoded_data_string = data_string.encode()
    hashed_string = hash(encoded_data_string)

    # Return the hashed string
    return hashed_string
Copy

Jetzt müssen Sie den Code in den Reinraum-Stagingbereich hochladen. Fügen Sie dazu die Datei zu dem Ordner hinzu, der die Version der Reinraum-Anwendungsdateien enthält, die derzeit veröffentlicht ist. Um den erforderlichen Ordner zu erhalten, können Sie die folgende Prozedur verwenden:

call samooha_by_snowflake_local_db.provider.get_stage_for_python_files($cleanroom_name);
Copy

Damit erhalten Sie den Stagingbereich, in den Sie diese Datei hochladen können. Sie können diese Datei mit dem folgenden Befehl aus Snowsql in den Stagingbereich hochladen:

PUT file://~/assign_group.py @samooha_cleanroom_Custom_Secure_Python_UDF_Demo_clean_room.app.code/V1_0P1/test_folder overwrite=True auto_compress=False;
Copy

Schließlich können Sie Python mit dem folgenden Befehl in den Reinraum laden:

call samooha_by_snowflake_local_db.provider.load_python_into_cleanroom(
    $cleanroom_name,
    'assign_group',                      // Name of the UDF
    ['data variant', 'index integer'],   // Arguments of the UDF, specified as (variable name, variable type)
    ['numpy', 'pandas'],                 // Packages UDF will use
    ['/test_folder/assign_group.py'],                // Name of Python file to import, relative to stage folder uploaded to
    'integer',                           // Return type of UDF
    'assign_group.main'                  // Handler - now scoped to file
);
Copy

Auf ähnliche Weise können Sie eine Datei namens ~/group_agg.py mit dem folgenden Code erstellen:

import pandas as pd


def main(s):
    s = pd.Series(s)
    return (s == "SILVER").sum()
Copy

Der Ordner, in den diese hochgeladen werden muss, hat sich nun geändert, da der letzte Aufruf von load_python_into_cleanroom einen Patch zum Reinraum hinzugefügt hat. Sie können den neuen Ordner erhalten, indem Sie den folgenden Befehl erneut ausführen:

call samooha_by_snowflake_local_db.provider.get_stage_for_python_files($cleanroom_name);
Copy

Die Datei kann dann in den entsprechenden Ordner hochgeladen werden:

PUT file://~/group_agg.py @samooha_cleanroom_Custom_Secure_Python_UDF_Demo_clean_room.app.code/V1_0P2 overwrite=True auto_compress=False;
Copy

Sobald Sie die Datei hochgeladen haben, können Sie die Python-UDF mit dem folgenden Befehl erstellen:

call samooha_by_snowflake_local_db.provider.load_python_into_cleanroom(
    $cleanroom_name,
    'group_agg',                         // Name of the UDF
    ['data variant'],                    // Arguments of the UDF, specified as (variable name, variable type)
    ['pandas'],                          // Packages UDF will use
    ['/group_agg.py'],                   // Name of Python file to import, relative to stage folder uploaded to
    'integer',                           // Return type of UDF
    'group_agg.main'                     // Handler - now scoped to file
);
Copy

Benutzerdefinierte Vorlage unter Verwendung der UDFs hinzufügen

Um eine benutzerdefinierte Analysevorlage zum Reinraum hinzuzufügen, benötigen Sie einen Platzhalter für Tabellennamen auf Anbieter- und Verbraucherseite sowie Join-Spalten auf der Anbieterseite. In SQL Jinja-Vorlagen müssen diese Platzhalter immer wie folgt sein:

  • source_table: Ein Array von Tabellennamen des Anbieters.

  • my_table: Ein Array von Tabellennamen des Verbrauchers.

Tabellennamen können durch die Verwendung dieser Variablen dynamisch gemacht werden, aber sie können in der Vorlage auch hartkodiert werden, wenn Sie den Namen der mit dem Reinraum verknüpften Ansicht verwenden. Die Spaltennamen können entweder fest in der Vorlage kodiert oder dynamisch über Parameter festgelegt werden. Wenn sie über Parameter festgelegt werden, denken Sie daran, dass Sie die Parameter dimensions oder measure_column aufrufen müssen, die Arrays sein müssen, damit sie mit der Spaltenrichtlinie abgeglichen werden können. Sie fügen diese als SQL Jinja-Parameter in die Vorlage ein, die später vom Verbraucher beim Ausführen der Abfrage übergeben werden. Die Verknüpfungsrichtlinien stellen sicher, dass der Verbraucher keine anderen als die autorisierten Spalten verknüpfen kann.

Alternativ kann jedes Argument in einer benutzerdefinierten SQL Jinja-Vorlage mit den folgenden Filtern auf die Einhaltung der Verknüpfungs- und Spaltenrichtlinien überprüft werden:

  • join_policy: Prüft, ob ein String-Wert oder eine Filterklausel mit der Verknüpfungsrichtlinie konform ist.

  • column_policy: Prüft, ob ein String-Wert oder eine Filterklausel mit der Spaltenrichtlinie konform ist.

  • join_and_column_policy: Prüft, ob Spalten, die für eine Verknüpfung in einer Filterklausel verwendet werden, mit der Verknüpfungsrichtlinie übereinstimmen, und ob Spalten, die als Filter verwendet werden, mit der Spaltenrichtlinie übereinstimmen.

Beispielsweise wird in der Klausel {{ provider_id | sqlsafe | join_policy }} eine Eingabe von p.HEM geparst, um zu prüfen, ob p.HEM in der Verknüpfungsrichtlinie enthalten ist. Hinweis: Verwenden Sie den Filter sqlsafe nur mit Vorsicht, da er es Teilnehmern erlaubt, reines SQL in die Vorlage einzubringen.

Bemerkung

Alle Anbieter- und Verbrauchertabellen müssen mit diesen Argumenten referenziert werden, da der Name der mit dem Reinraum tatsächlich verknüpften sicheren Ansicht ein anderer ist als der Tabellenname. Wichtig: Anbieter-Tabellen-Aliasse müssen p (oder p1), p2, p3, p4 usw. sein und Verbraucher-Tabellen-Aliasse müssen c (oder c1), c2, c3 usw. sein. Dies ist erforderlich, um die Sicherheitsrichtlinien im Reinraum durchzusetzen.

Beachten Sie, dass diese Funktion jede vorhandene Vorlage mit demselben Namen überschreibt. Wenn Sie eine bestehende Vorlage aktualisieren möchten, rufen Sie einfach diese Funktion erneut mit der aktualisierten Vorlage auf.

Diese Vorlage reichert zunächst die Daten des Anbieters mit einem Hash aus einer Reihe von Spalten aus der Tabelle des Anbieters an. Diese angereicherten Daten werden dann mit dem E-Mail-Datenset des Verbrauchers verknüpft, wobei eine optionale Filter-Klausel mitgegeben wird. Schließlich wird die benutzerdefinierte Python-UDF group_agg verwendet, um eine Aggregation als Funktion der gehashten Spalten aus der ersten UDF zu berechnen.

call samooha_by_snowflake_local_db.provider.add_custom_sql_template(
    $cleanroom_name, 
    'prod_custom_udf_template', 
    $$
with enriched_provider_data as (
    select 
        cleanroom.assign_group(array_construct(identifier({{ filter_column | column_policy }}), identifier({{ dimensions[0] | column_policy }})), identifier({{ measure_column[0] | column_policy }})) as groupid,
        {{ filter_column | sqlsafe }},
        hem
    from identifier({{ source_table[0] }}) p
), filtered_data as (
    select 
        groupid,
        identifier({{ filter_column | column_policy }})
    from enriched_provider_data p
    inner join identifier({{ my_table[0] }}) c
    on p.hem = c.hem
    {% if where_clause %}
    where {{ where_clause | sqlsafe }}
    {% endif %}
)
select groupid, cleanroom.group_agg(array_agg({{ filter_column | sqlsafe }})) as count from filtered_data p
group by groupid;
    $$
);
Copy

Bemerkung

Sie können Differential Privacy-Sensitivität zum obigen Aufruf der Prozedur „samooha_by_snowflake_local_db.provider.add_custom_sql_template“ als letzten Parameter hinzufügen (wenn Sie ihn nicht hinzufügen, wird er standardmäßig auf 1 gesetzt).

Wenn Sie die derzeit im Reinraum aktiven Vorlagen anzeigen möchten, rufen Sie die folgende Prozedur auf.

call samooha_by_snowflake_local_db.provider.view_added_templates($cleanroom_name);
Copy

Spaltenrichtlinie für jede Tabelle festlegen

Zeigen Sie die verknüpften Daten an, um die in der Tabelle vorhandenen Spalten zu sehen. Um die obersten 10 Zeilen anzuzeigen, führen Sie die folgende Prozedur aus:

select * from SAMOOHA_SAMPLE_DATABASE.DEMO.CUSTOMERS limit 10;
Copy

Legen Sie die Spalten fest, die der Verbraucher gruppieren und aggregieren (z. B. SUM oder AVG) und generell in einer Analyse für jede Kombination aus Tabelle und Vorlage verwenden darf. Dies bietet Flexibilität, sodass dieselbe Tabelle je nach der zugrunde liegenden Vorlage eine unterschiedliche Spaltenauswahl zulassen kann. Dies sollte erst nach dem Hinzufügen der Vorlage aufgerufen werden.

Beachten Sie, dass die Spaltenrichtlinie nur ersetzt wird. Wenn die Funktion also erneut aufgerufen wird, wird die zuvor festgelegte Spaltenrichtlinie vollständig durch die neue ersetzt.

Die Spaltenrichtlinie darf nicht für Identitätsspalten wie E-Mail, HEM oder RampID verwendet werden, da der Verbraucher sonst in der Lage wäre, nach diesen Spalten zu gruppieren. In der Produktionsumgebung erkennt das System auf intelligente Weise die PII-Spalten und blockiert diese Operation, aber dieses Feature ist in der Sandbox-Umgebung nicht verfügbar. Sie sollte nur für Spalten verwendet werden, die Sie dem Verbraucher zur Verfügung stellen möchten, um sie zu aggregieren und zu gruppieren, z. B. Status, Altersgruppe, Regionscode oder Aktive Tage.

Beachten Sie Folgendes: Damit „column_policy“ und „join_policy“ Überprüfungen der Verbraucheranalyseanfragen ausführen können, müssen alle Spaltennamen in der SQL Jinja-Vorlage als dimensions oder measure_columns bezeichnet werden. Stellen Sie sicher, dass Sie diese Tags verwenden, um auf Spalten zu verweisen, die Sie in benutzerdefinierten SQL Jinja-Vorlagen überprüfen möchten.

call samooha_by_snowflake_local_db.provider.set_column_policy($cleanroom_name, [
    'prod_custom_udf_template:SAMOOHA_SAMPLE_DATABASE.DEMO.CUSTOMERS:STATUS', 
    'prod_custom_udf_template:SAMOOHA_SAMPLE_DATABASE.DEMO.CUSTOMERS:REGION_CODE',
    'prod_custom_udf_template:SAMOOHA_SAMPLE_DATABASE.DEMO.CUSTOMERS:AGE_BAND',
    'prod_custom_udf_template:SAMOOHA_SAMPLE_DATABASE.DEMO.CUSTOMERS:DAYS_ACTIVE']);
Copy

Wenn Sie die zum Reinraum hinzugefügte Spaltenrichtlinie anzeigen möchten, rufen Sie die folgende Prozedur auf.

call samooha_by_snowflake_local_db.provider.view_column_policy($cleanroom_name);
Copy

Für Verbraucher freigeben

Fügen Sie schließlich einen Datenverbraucher zum Reinraum hinzu, indem Sie dessen Snowflake-Konto-Locator und Kontonamen wie unten gezeigt hinzufügen. Der Name des Snowflake-Kontos muss das Format <ORGANIZATION>.<ACCOUNT_NAME\> haben.

Bemerkung

Um die folgenden Prozeduren aufzurufen, stellen Sie sicher, dass Sie zuvor die Release-Richtlinie mit provider.set_default_release_directive festgelegt haben. Die letzte verfügbare Version und die letzten Patches können Sie wie folgt anzeigen:

show versions in application package samooha_cleanroom_Custom_Secure_Python_UDF_Demo_clean_room;
Copy

Bemerkung

Beachten Sie, dass dieser Aufruf etwa 60 Sekunden in Anspruch nimmt, da er eine Reihe von Aufgaben zum Überwachen und Protokollieren von Anfragen des Verbrauchers einrichtet.

call samooha_by_snowflake_local_db.provider.add_consumers($cleanroom_name, '<CONSMUMER_ACCOUNT_LOCATOR>');
Copy

Mehrere Verbraucherkonto-Locators können der Funktion provider.add_consumers als kommagetrennte Zeichenfolge oder als separate Aufrufe von provider.add_consumers übergeben werden.

Wenn Sie die Verbraucher anzeigen möchten, die diesem Reinraum hinzugefügt wurden, rufen Sie die folgende Prozedur auf.

call samooha_by_snowflake_local_db.provider.view_consumers($cleanroom_name);
Copy

Sie können die zuletzt erstellten Reinräume anzeigen, indem Sie die folgende Prozedur ausführen:

call samooha_by_snowflake_local_db.provider.view_cleanrooms();
Copy

Sie können sich weitere Informationen zu dem zuletzt erstellten Reinraum anzeigen, indem Sie die folgende Prozedur ausführen:

call samooha_by_snowflake_local_db.provider.describe_cleanroom($cleanroom_name);
Copy

Jeder erstellte Reinraum kann auch wieder gelöscht werden. Mit dem folgenden Befehl wird der Reinraum vollständig gelöscht, sodass alle Verbraucher, die zuvor Zugang zum Reinraum hatten, diesen nicht mehr nutzen können. Wenn in Zukunft ein Reinraum mit demselben Namen gewünscht wird, muss er mit dem oben beschriebenen Workflow neu initialisiert werden.

call samooha_by_snowflake_local_db.provider.drop_cleanroom($cleanroom_name);
Copy

Bemerkung

Anbieter-Workflows ist damit abgeschlossen. Wechseln Sie zum Verbraucherkonto, um mit dem Verbraucher-Workflow fortzufahren.

Verbraucher

Bemerkung

Die folgenden Befehle sollten in einem Snowflake-Arbeitsblatt im Verbraucherkonto ausgeführt werden.

Umgebung einrichten

Führen Sie die folgenden Befehle aus, um die Snowflake-Umgebung einzurichten, bevor Sie Entwickler-APIs für die Arbeit mit einem Snowflake Data Clean Room verwenden. Wenn Sie nicht über die Rolle SAMOOHA_APP_ROLE verfügen, wenden Sie sich an Ihren Kontoadministrator.

use role samooha_app_role;
use warehouse app_wh;
Copy

Reinraum installieren

Nachdem eine Reinraumfreigabe installiert wurde, können Sie die Liste der verfügbaren Reinräume mit dem folgenden Befehl anzeigen.

call samooha_by_snowflake_local_db.consumer.view_cleanrooms();
Copy

Vergeben Sie einen Namen für den Reinraum, den der Anbieter für Sie freigegeben hat.

set cleanroom_name = 'Custom Secure Python UDF Demo clean room';
Copy

Mit dem folgenden Befehl wird der Reinraum im Verbraucherkonto mit dem zugehörigen Anbieter und dem ausgewählten Reinraum installiert.

Die Ausführung dieser Prozedur dauert etwa 45 Sekunden.

call samooha_by_snowflake_local_db.consumer.install_cleanroom($cleanroom_name, '<PROVIDER_ACCOUNT_LOCATOR>');
Copy

Nachdem der Reinraum installiert wurde, muss der Anbieter den Reinraum auf seiner Seite fertig einrichten, bevor er für die Nutzung aktiviert wird. Mit der folgenden Funktion können Sie den Status des Reinraums überprüfen. Sobald er aktiviert ist, sollten Sie den „run_analysis“-Befehl ausführen können. Es dauert normalerweise etwa 1 Minute, bis der Reinraum aktiviert ist.

call samooha_by_snowflake_local_db.consumer.is_enabled($cleanroom_name);
Copy

Analyse ausführen

Jetzt, da der Reinraum installiert ist, können Sie die Analysevorlage, die der Anbieter im Reinraum bereitgestellt hat, mit dem Befehl „run_analysis“ ausführen. In den folgenden Abschnitten erfahren Sie, wie die einzelnen Felder bestimmt werden.

Die Anzahl der Datensets, die übergeben werden können, wird durch die Vorlage eingeschränkt, die der Anbieter implementiert hat. Einige Vorlagen erfordern eine spezifizierte Anzahl von Tabellen. Der Vorlagenersteller kann die Anforderungen implementieren, die unterstützt werden sollen.

Bemerkung

Bevor Sie die Analyse ausführen, können Sie die Warehouse-Größe ändern oder eine neue, größere Warehouse-Größe verwenden, wenn Ihre Tabellen groß sind.

call samooha_by_snowflake_local_db.consumer.run_analysis(
  $cleanroom_name,               -- cleanroom
  'prod_custom_udf_template',    -- template name

  ['SAMOOHA_SAMPLE_DATABASE.DEMO.CUSTOMERS'],    -- consumer tables

  ['SAMOOHA_SAMPLE_DATABASE.DEMO.CUSTOMERS'],     -- provider tables

  object_construct(    -- Rest of the custom arguments needed for the template
    'filter_column', 'p.status',            -- One of the SQL Jinja arguments, the column the UDF filters on

    'dimensions', ['p.DAYS_ACTIVE'],
    
    'measure_column', ['p.AGE_BAND'],

    'where_clause', 'c.status = $$GOLD$$'   -- A boolean filter applied to the data
  )
);
Copy

Für jede der Spalten, auf die Sie entweder in der Datenset-Filterung „where_clause“ oder in den Dimensionen oder „measure_columns“ verweisen, können Sie p. verwenden, um auf Felder in Anbietertabellen zu verweisen, und c., um auf Felder in Verbrauchertabellen zu verweisen. Verwenden Sie p2, p3 usw. für mehr als eine Anbietertabelle und c2, c3 usw. für mehr als eine Verbrauchertabelle.

Eingaben für „run_analysis“ bestimmen

Um die Analyse auszuführen, müssen Sie einige Parameter an die Funktion „run_analysis“ übergeben. In diesem Abschnitt erfahren Sie, wie Sie ermitteln, welche Parameter Sie übergeben müssen.

Vorlagennamen

Zuerst können Sie die unterstützten Analysevorlagen anzeigen, indem Sie die folgende Prozedur aufrufen.

call samooha_by_snowflake_local_db.consumer.view_added_templates($cleanroom_name);
Copy

Bevor Sie eine Analyse mit einer Vorlage ausführen, müssen Sie ermitteln, welche Argumente Sie angeben müssen und welche Typen erwartet werden. Für benutzerdefinierte Vorlagen können Sie den folgenden Befehl ausführen:

call samooha_by_snowflake_local_db.consumer.view_template_definition($cleanroom_name, 'prod_custom_udf_template');
Copy

Diese kann oft auch eine große Anzahl verschiedener SQL Jinja-Parameter enthalten. Die folgende Funktion analysiert die Jinja-Vorlage SQL und extrahiert die Argumente, die in „run_analysis“ spezifiziert werden müssen, in eine praktische Liste.

call samooha_by_snowflake_local_db.consumer.get_arguments_from_template($cleanroom_name, 'prod_custom_udf_template');
Copy

Datensetnamen

Wenn Sie die Namen der Datensets anzeigen möchten, die vom Anbieter zum Reinraum hinzugefügt wurden, rufen Sie die folgende Prozedur auf. Beachten Sie, dass Sie die Daten in den Datensets, die vom Anbieter zum Reinraum hinzugefügt wurden, aufgrund der Sicherheitseigenschaften des Reinraums nicht anzeigen können.

call samooha_by_snowflake_local_db.consumer.view_provider_datasets($cleanroom_name);
Copy

Sie können auch die Tabellen anzeigen, die Sie mit dem Reinraum verknüpft haben, indem Sie den folgenden Befehl ausführen:

call samooha_by_snowflake_local_db.consumer.view_consumer_datasets($cleanroom_name);
Copy

Dimension- und Measure-Spalten

Während Sie die Analyse durchführen, möchten Sie vielleicht nach bestimmten Spalten filtern, gruppieren und aggregieren. Wenn Sie die vom Anbieter zum Reinraum hinzugefügte Spaltenrichtlinie anzeigen möchten, rufen Sie die folgende Prozedur auf.

call samooha_by_snowflake_local_db.consumer.view_provider_column_policy($cleanroom_name);
Copy

Typische Fehler

Wenn Sie Fehlermeldung Not approved: unauthorized columns used (Nicht genehmigt: nicht autorisierte Spalten verwendet) als Ergebnis der Analyseausführung erhalten, möchten Sie möglicherweise die vom Anbieter festgelegte Verknüpfungsrichtlinie und Spaltenrichtlinie erneut anzeigen.

call samooha_by_snowflake_local_db.consumer.view_provider_join_policy($cleanroom_name);
call samooha_by_snowflake_local_db.consumer.view_provider_column_policy($cleanroom_name);
Copy

Es ist auch möglich, dass Sie Ihr Datenschutzbudget ausgeschöpft haben, sodass Sie keine weiteren Abfragen mehr ausführen können. Ihr verbleibendes Datenschutzbudget können Sie mit dem folgenden Befehl anzeigen. Das Budget wird täglich zurückgesetzt, oder der Anbieter des Reinraums kann es auf Wunsch auch manuell zurücksetzen.

call samooha_by_snowflake_local_db.consumer.view_remaining_privacy_budget($cleanroom_name);
Copy

Sie können überprüfen, ob Differential Privacy für Ihren Reinraum aktiviert wurde, indem Sie die folgende API verwenden:

call samooha_by_snowflake_local_db.consumer.is_dp_enabled($cleanroom_name);
Copy