Entwerfen benutzerdefinierter Vorlagen¶
Über Clean Room-Vorlagen¶
Clean Room-Vorlagen werden in `JinjaSQL<https://github.com/sripathikrishnan/jinjasql>`_ geschrieben. JinjaSQL ist eine Erweiterung der Jinja-Vorlagensprache. Eine JinjaSQL-Vorlage ergibt eine SQL-Anweisung bei der Ausführung in einem Clean Room. Die JinjaSQL-Vorlagensprache bietet logische Anweisungen und das Ersetzen von Laufzeitvariablen, sodass die Vorlage zur Laufzeit angepasst werden kann. So kann ein Benutzer beispielsweise Tabellen- und Spaltennamen angeben, wenn er die Vorlage ausführt, und die Vorlage kann sich anhand der übergebenen Werte selbst anpassen.
Es gibt zwei allgemeine Vorlagentypen:
Analysevorlagen, die eine SQL DQL-Anweisung (eine SELECT-Anweisung) ergeben, die Abfrageergebnisse sofort an die Vorlagenausführung zurückgibt.
Aktivierungsvorlagen, die verwendet werden, um Ergebnisse für ein Snowflake-Konto zu aktivieren, anstatt die Ergebnisse in der unmittelbaren Umgebung anzuzeigen. Eine Aktivierungsvorlage ist einer Analysevorlage sehr ähnlich, mit einigen zusätzlichen Anforderungen, und ergibt eine DDL-Anweisung (CREATE TABLE).
Erstellen, Freigeben und Ausführen von benutzerdefinierten Vorlagen¶
Jeder Teilnehmer kann mit bestimmten Analyseausführenden in einer Collaboration Vorlagen registrieren und freigeben.
Beginnen wir mit einer einfachen SQL-Abfrage und wie sie als Vorlage geschrieben werden würde.
1. Die JinjaSQL-Vorlage¶
Hier ist eine einfache SQL-Abfrage, die zwei Tabellen per E-Mail verknüpft und die Anzahl der Überschneidungen pro Stadt anzeigt:
So würde diese Abfrage als JinjaSQL-Vorlage aussehen, die es dem Aufrufer ermöglicht, die JOIN- undGROUPBY- Spalten sowie die verwendeten Tabellen zu wählen. Die Vorlage enthält einige Filter, die :ref:` Snowflake Data Clean Room-Richtlinien<label-dcr_collaborations_policies>` erzwingen.
Anmerkungen zur Vorlage:
Werte innerhalb von {{doppelten Klammerpaaren}} sind Variablen. Die Werte werden vom Aufrufer gefüllt.
group_by_col,source_table,``p1_join_col`` undp2_join_colsind alle Variablen, die vom Aufrufer gefüllt werden. Diese Variablen haben beliebige Namen, die vom Vorlagendesigner gewählt wurden.source_tableist eine von Snowflake definierte Standardvariable. Diese Variable definiert die in der Abfrage zu verwendenden Ansichten. Diese Ansichten sind Datensätze innerhalb von Datenangeboten, die mit dem Clean Room verknüpft sind. Teilnehmer können verfügbare Datasets auflisten, indem sie VIEW_DATA_OFFERINGS aufrufen.Ein Datenset muss den Alias Kleinbuchstaben```p` verwenden, wenn Sie die Richtlinien von Snowflake Data Clean Room dafür durchsetzen möchten. Wenn eine Vorlage mehrere Datensets verwendet, ist das erste
poderp1und zusätzliche Datensets werden alsp2,``p3`` usw. indiziert.IDENTIFIER wird für alle Spalten- und Tabellennamen benötigt, da Variablen in {{ double brackets }} als Zeichenfolgenliterale ausgewertet werden, die keine gültigen Bezeichner sind.
JinjaSQL-Filter werden auf Spalten angewendet, um Snowflake Data Clean Room-Richtlinien für die Spalte durchzusetzen. Snowflake implementiert die kundenspezifischen Filter
join_policyundcolumn_policy, die überprüfen, ob eine Spalte den Verknüpfungs- bzw. Spaltenrichtlinien im Clean Room entspricht, und die Abfrage fehlschlagen lässt, wenn dies nicht der Fall ist. Ein Filter wird auf einen Spaltennamen als{{ column_name | filter_name }}angewendet.
All diese Punkte werden wir später im Detail besprechen.
2. Die Collaboration-Vorlage¶
Eine Vorlage wird zu einer Collaboration hinzugefügt, indem sie in eine YAML-Spezifikation eingebettet und registriert wird und dann verknüpft wird.
Sie müssen anfordern, dass eine Vorlage für einen bestimmten Analyseausführenden freigegeben werden soll, der die Anfrage annehmen oder ablehnen kann. Außerdem müssen alle Datenanbieter für diesen Analyseausführenden die Anfrage zur Freigabe der Vorlage akzeptieren.
3. Ausführen der Vorlage¶
So könnte ein Analyseausführender diese Vorlage im Code ausführen. Beachten Sie, wie Spaltennamen durch die in der Vorlage deklarierten Tabellenaliasse qualifiziert werden.
Entwickeln einer benutzerdefinierten Vorlage¶
Clean Room-Vorlagen sind JinjaSQL-Vorlagen. Um eine -Vorlage zu erstellen, sollten Sie mit den folgenden Themen vertraut sein:
Sie können Cortex Code verwenden, um die SQL-Ausgabe Ihrer JinjaSQL-Vorlagen auf der Grundlage von Variableneingaben, die bereitgestellt werden sollen, zu validieren. Sehen Sie sich unten Beispiel-Eingabeaufforderungen an, die Sie in Cortex Code kopieren können, um die endgültigen SQL-Ausgaben zu erhalten, die Sie testen können:
Beispiel:
Die gerenderte Vorlage sieht wie folgt aus:
Versuchen Sie, die obige SQL-Anweisung in Ihrer Umgebung auszuführen, um zu sehen, ob sie funktioniert und die erwarteten Ergebnisse liefert.
Dann testen Sie Ihre Vorlage ohne WHERE-Klausel:
Gerenderte Vorlage:
Fügen Sie die Vorlage zu Ihrem Clean Room hinzu, und testen Sie mit einer Analyseausführungsspezifikation.
Datenschutz¶
Vorlagen können nur auf Datensets zugreifen, die von Teilnehmern mit dem Clean Room verknüpft wurden.
Teilnehmer legen Verknüpfungs-, Spalten- und Aktivierungsrichtlinien für ihre Datensets fest, um sicherzustellen, dass nur diese Spalten als Eingabe für eine Vorlagenvariable verwendet werden können.
Wichtig
Die Vorlage muss den entsprechenden JinjaSQL-Richtlinienfilter für eine Spalte enthalten, damit die Richtlinie angewendet wird.
Syntax einer benutzerdefinierten Vorlage¶
Snowflake Data Clean Rooms unterstützt V3 JinjaSQL, mit einigen Erweiterungen (wie angegeben).
Dieser Abschnitt enthält die folgenden Themen:
Regeln für die Benennung von Vorlagen¶
Beim Erstellen einer Vorlage dürfen Namen nur Buchstaben, Zahlen oder Unterstriche enthalten. Die Namen der Vorlagen werden im name-Feld der Spezifikation der Vorlage zugewiesen, wenn Sie die Vorlage registrieren.
Beispiel für gültige Namen:
my_templateactivation_template_1
Beispiel für ungültige Namen:
my template- Leerzeichen nicht erlaubtmy_template!- Sonderzeichen nicht erlaubt
Vorlagenvariablen¶
Vorlagenaufrufer können Werte an Vorlagenvariablen übergeben. Die JinjaSQL-Syntax ermöglicht die Variablenbindung für jeden Variablennamen innerhalb von {{ double_brackets }}, aber Snowflake reserviert einige Variablennamen, die Sie nicht überschreiben sollten, wie unten beschrieben.
Vorsicht
Alle Variablen, ob von Snowflake definiert oder kundenspezifisch, werden vom Benutzenden befüllt und sollten mit der entsprechenden Vorsicht behandelt werden. Analysevorlagen müssen zu einer einzigen SELECT -Anweisung aufgelöst werden (Aktivierungsvorlagen werden zu einem Skriptblock aufgelöst). Denken Sie daran, dass alle Variablen vom Aufrufer übergeben werden.
Snowflake-definierte Variablen¶
Alle Clean Room-Vorlagen haben Zugriff auf die folgenden globalen Variablen, die von Snowflake definiert, aber vom Analyseausführenden übergeben werden:
source_table:Ein nullbasiertes Zeichenfolgen-Array von Tabellen und Ansichten aus Datenangeboten, die über LINK_DATA_OFFERING mit der Collaboration verknüpft sind, die von der Vorlage verwendet werden kann.
Beispiel:
SELECT col1 FROM IDENTIFIER({{ source_table[0] }}) AS p;my_table:In einem Collaboration-Clean Room wird
my_tablenur von Benutzern der Snowflake Standard Edition verwendet. Für diese Benutzer gilt:my_tableist ein nullbasiertes Zeichenfolgen-Array von Datensets, die der Analyseausführende durch den Aufruf von LINK_LOCAL_DATA_OFFERING verknüpft hat.Beispiel:
SELECT col1 FROM IDENTIFIER({{ my_table[0] }}) AS c;
Benutzerdefinierte Variablen¶
Vorlagenersteller können beliebige Variablen in eine Vorlage aufnehmen, die vom Analyseausführenden befüllt werden können. Diese Variablen, außer die von Snowflake definierten Variablen oder Tabellen-Aliasnamen, können einen beliebigen Jinja-kompatiblen Namen haben. Sie sollten im Parameterabschnitt der Vorlage Hinweise zu erforderlichen und optionalen Variablen geben.
Auf benutzerdefinierte Variablen kann von Ihrer Vorlage aus zugegriffen werden, wie hier für die benutzerdefinierte Variable max_income gezeigt:
Analyseausführende übergeben beim Aufruf von RUN Variablen wie in der Analyseausführungsspezifikation definiert.
Variablen richtig auflösen¶
In die Vorlage übergebene Zeichenfolgenwerte werden in der endgültigen Vorlage in ein Zeichenfolgenliteral aufgelöst. Dies kann zu SQL-Parsing- oder logischen Fehlern führen, wenn Sie gebundene Variablen nicht angemessen behandeln:
SELECT {{ my_col }} FROM p;wird zuSELECT 'my_col' from p;aufgelöst, sodass einfach die Zeichenfolge „my_col“ zurückgegeben wird, was wahrscheinlich nicht Ihr Ziel war.SELECT age FROM {{ source_table[0] }} AS p;wird zuSELECT age FROM 'somedb.somesch.source_table' AS p;aufgelöst, was einen Parsing-Fehler verursacht, da eine Tabelle ein Bezeichner und keine literale Zeichenfolge sein muss.Die Übergabe von
SELECT age FROM IDENTIFIER({{ source_table[0] }}) AS p {{ where_clause }};in „WHERE Alter < 50“ ergibtSELECT age FROM mytable AS p 'WHERE age < 50';, was aufgrund der WHERE-Klausel der literalen Zeichenfolge ein Parsing-Fehler ist.
Daher müssen Sie, wo es angebracht ist, Variablen auflösen. Hier erfahren Sie, wie Sie Variablen in Ihrer Vorlage richtig auflösen:
- Auflösen von Tabellen- und Spaltennamen
Variablen, die Tabellen- oder Spaltennamen enthalten, müssen auf eine der beiden folgenden Arten in Bezeichner in Ihrer Vorlage umgewandelt werden:
IDENTIFIER: For example:
SELECT IDENTIFIER({{ my_column }}) FROM p;sqlsafe: Dieser JinjaSQL-Filter löst Bezeichnerzeichenfolgen in SQL-Text auf. Eine gleichwertige Anweisung zum vorherigen Punkt ist
SELECT {{ my_column | sqlsafe }} FROM p;
Ihre spezielle Nutzung bestimmt, wann IDENTIFIER oder
sqlsafeverwendet werden. Beispiel:p.{{ my_column | sqlsafe }}kann nicht einfach mit IDENTIFIER umgeschrieben werden.- Auflösen von dynamischem SQL
Wenn Sie eine Zeichenfolgenvariable haben, die als Literal-SQL verwendet werden soll, wie z. B. eine WHERE Klausel, verwenden Sie den
sqlsafe-Filter in Ihrer Vorlage. Beispiel:Wenn ein Benutzer „Alter < 50“ an
where_clauseübergibt, würde die Abfrage inSELECT Alter FROM sometable AS p WHERE 'Alter < 50';aufgelöst werden, was aufgrund der WHERE-Bedingung der literalen Zeichenfolge ungültige SQL ist. In diesem Fall sollten Sie densqlsafe-Filter verwenden:
Erforderliche Tabellen-Aliasse¶
Auf der obersten Ebene Ihrer Abfrage müssen alle``source_table``-Datensets den Alias p verwenden, und alle my_table-Datensets müssen den Alias c verwenden, damit Snowflake Verknüpfungs- und Spaltenrichtlinien in der Abfrage korrekt überprüfen kann. Jede Spalte, die anhand von Verknüpfungs- oder Spaltenrichtlinien verifiziert werden soll, muss mit dem Tabellenalias kleines p oder c qualifiziert sein.
Wenn Sie in Ihrer Abfrage mehrere source_table- oder my_table-Datensets verwenden, fügen Sie jedem Tabellenalias nach der ersten ein numerisches, fortlaufendes 1-basiertes Suffix hinzu. Also: p oder p1, p2, p3 usw. für die ersten, zweiten und dritten source_table-Datensets und c oder``c1``, c2, c3 usw. für die ersten, zweiten und dritten my_table-Datensets. Der p- oder c-Index sollte ohne Lücken sequenziell sein (d. h. nutzen Sie die Aliasnamen p1, p2 und p3, nicht p1, p2 und p4).
Beispiel
Kundenspezifische Clean Room-Filter¶
Snowflake unterstützt alle Standard-Jinja-Filter und die meisten der Standard-JinjaSQL-Filter sowie einige Erweiterungen:
join_policy:Erfolgreich, wenn die Spalte in der Verknüpfungsrichtlinie des Dateneigentümers enthalten ist; schlägt andernfalls fehl. Siehe Anwenden von Datenschutzrichtlinien auf Datenangebote.
column_policy:Erfolgreich, wenn die Spalte in der Spaltenrichtlinie des Dateneigentümers enthalten ist; schlägt andernfalls fehl. Siehe Anwenden von Datenschutzrichtlinien auf Datenangebote.
activation_policy:Erfolgreich, wenn die Spalte in der Aktivierungsrichtlinie des Dateneigentümers enthalten ist; schlägt andernfalls fehl. Siehe Anwenden von Datenschutzrichtlinien auf Datenangebote.
join_and_column_policy:Erfolgreich, wenn die Spalte in der Verknüpfungs- oder Spaltenrichtlinie des Dateneigentümers enthalten ist; schlägt andernfalls fehl. Siehe Anwenden von Datenschutzrichtlinien auf Datenangebote.
identifier:Dieser JinjaSQL-Filter wird von Snowflake-Vorlagen nicht unterstützt.
Tipp
JinjaSQL-Anweisungen werden von links nach rechts ausgewertet:
{{ my_col | column_policy }}Richtig{{ my_col | sqlsafe | column_policy }}Richtig{{ column_policy | my_col }}Falsch{{ my_col | column_policy | sqlsafe }}Falsch:column_policywird mit demmy_col-Wert als Zeichenfolge abgeglichen, was ein Fehler ist.
Clean Room-Richtlinien durchsetzen¶
Clean Rooms überprüfen nicht automatisch Clean Room-Richtlinien für die Spalten, die in einer Vorlage verwendet werden. Wenn Sie eine Richtlinie für eine Spalte erzwingen möchten:
Sie müssen den entsprechenden Richtlinienfilter auf diese Spalte in der Vorlage anwenden. Beispiel:
Sie müssen für die Tabelle den Alias mit kleinem
podercverwenden. Siehe Erforderliche Tabellen-Aliasse.
Richtlinien werden nur für Spalten von Tabellen geprüft, auf die in einer source_table-Variable verwiesen wird, und die sich auf innerhalb des Clean Room freigegebene Ansichten beziehen. Richtlinien werden nicht mit Spalten von Tabellen geprüft, auf die in einer my_table-Variable verwiesen wird, bei denen es sich um lokale Tabellen handelt, die nicht innerhalb des Clean Room gemeinsam genutzt werden.
Beachten Sie beim Testen von Richtlinien, dass Spaltennamen nicht mehrdeutig sein dürfen. Wenn Sie also Spalten mit demselben Namen in zwei Tabellen haben, müssen Sie den Spaltennamen qualifizieren, um die Richtlinie für diese Spalte testen zu können.
Hinweise zum Zugriff und Best Practices¶
Eine Vorlage wird immer im Kontext der Clean Room-Anwendungsrolle ausgeführt. Ein Teilnehmer hat keinen direkten Zugriff auf Daten im Clean Room, die nur auf Vorlagen beschränkt sind. Der gesamte Zugriff erfolgt über die nativen Anwendungsrollen und die Ausgaben der Vorlagen.
Als Best Practice sollten Sie Folgendes für Vorlagen befolgen, die Sie erstellen oder in einem Clean Room verwenden:
Stellen Sie sicher, dass jedes Mal, wenn eine Spaltenvariable in einer Vorlage verwendet wird, ein Richtlinienfilter angewendet wird, damit die Richtlinien der Teilnehmer beachtet werden.
Schließen Sie vom Benutzer bereitgestellte Variablen wenn möglich mit IDENTIFIER() ein, um Ihre Vorlagen gegen SQL-Einschleusungsangriffe auszurüsten.
Aktivierungsvorlagen¶
Eine Vorlage kann auch verwendet werden, um Abfrageergebnisse in einer Tabelle außerhalb des Clean Room zu speichern. Dies wird Aktivierung genannt. Eine Aktivierungsvorlage ist eine Analysevorlage mit den folgenden zusätzlichen Anforderungen:
Aktivierungsvorlagen sind JinjaSQL-Anweisungen, die einen SQL-Skriptblock ergeben, im Gegensatz zu Analysevorlagen, die einfache SELECT-Anweisungen sein können.
Aktivierungsvorlagen müssen eine interne Tabelle im Clean Room erstellen, um die Ergebnisse zu speichern. Die von der Vorlage generierte Tabelle muss das Präfix
cleanroom.activation_data_haben, zum Beispiel:cleanroom.activation_data_my_resultsAlle Spalten in der internen Ergebnistabelle sollten den Wert
activation_allowed: TRUEin ihrer Datenangebotsspezifikation haben.Der Skriptblock sollte mit einer RETURN-Anweisung enden, die den Namen der generierten Tabelle ohne das
cleanroom.activation_data_-Präfix zurückgibt, zum Beispiel:RETURN 'my_results'.Für die Vorlage selbst gibt es keine Anforderungen an die Benennung.
Hier finden Sie ein Beispiel für eine Aktivierungsvorlagen-Spezifikation:
Erfahren Sie, wie Sie die Aktivierung in einer Collaboration implementieren: Aktivieren von Abfrageergebnissen.
Nächste Schritte¶
Nachdem Sie das Vorlagensystem gemeistert haben, lesen Sie sich die Einzelheiten zur Implementierung eines Clean Room mit Ihrem Vorlagentyp durch:
Aktivierungsvorlagen erstellen eine Ergebnistabelle nach einer erfolgreichen Ausführung und werden außerhalb des Clean Room freigegeben. Je nach Spezifikation für die Collaboration kann die Ergebnistabelle für den Analyseausführenden oder andere Teilnehmer freigegeben werden.
Code-Bundles werden verwendet, um benutzerdefinierte Python-UDFs und -UDTFs in eine Collaboration hochzuladen. Vorlagen in der Zusammenarbeit können diese Funktionen ausführen, um komplexe Datenaktionen durchzuführen.
Interne Tabellen werden verwendet, um Zwischenergebnisse oder persistente Ergebnisse zu speichern, die nachgelagert zur Unterstützung von mehrstufigen Arbeitsabläufen verwendet werden können. Auf diese Tabellen können Vorlagen oder benutzerdefinierten Code innerhalb des Clean Room zugreifen.