Anwendungsfall: Überlappung und Segmentierung¶
Snowflake bietet eine Überlappungs- und Segmentierungsvorlage, um festzustellen, welche Entitäten in den Daten aller Teilnehmer vorhanden sind, und um aggregierte Informationen über diese Entitäten anzuzeigen.
Wenn Sie diese Vorlage verwenden, fügen zwei Parteien jeweils eine oder mehrere Tabellen zu einem Clean Room hinzu. Entitäten in diesen Tabellen werden durch die von Ihnen angegebenen Verknüpfungsspalten verknüpft oder identifiziert. Darüber hinaus kann die Überlappungszahl nach bestimmten Segmentierungsattributen aufgeschlüsselt und gefiltert werden. Auf diese Weise erhalten die Parteien einen Einblick in die Überschneidungen zwischen ihren Datensets, was dabei helfen kann, den Wert der Zusammenarbeit zu bestimmen und andere nachgelagerte Anwendungsfälle im Clean Room zu erleichtern. Der Verbraucher gibt an, welche Spalten verknüpft und welche Spalten angezeigt werden sollen. Alle projizierten Spalten müssen entweder gruppiert oder mit einer Aggregationsfunktion aggregiert werden. Spalten, die Entitäten identifizieren, werden in den Abfrageergebnissen blockiert, und der Clean Room wendet differentielle Privatsphäre an, um Informationen über bestimmte Entitäten weiter zu schützen. Wenn die Ergebnisse vom Ersteller des Clean Rooms aktiviert wurden, können sie auch an andere Personen (nur Clean Rooms-UI) weitergegeben werden.
Ein Werbetreibender kann zum Beispiel eine Überlappungsanalyse für das Inventar eines Verlags durchführen, um den Wert des Kaufs von Medien bei diesem Verlag zu ermitteln. Der Werbetreibende aktiviert dann zu Targeting-Zwecken die IDs seiner gewünschten Zielgruppe für den Verlag.
Die Überlappungs- und Segmentierungsvorlage steht in beiden Clean Rooms-UI und im Code zur Verwendung bereit. Die Clean Rooms-UI ermöglicht die einfache Nutzung von Identitätsanbietern und die Aktivierung für Drittanbieter, während durch die Codenutzung mehrere Tabellen von Anbieter und Verbraucher gleichermaßen aktiviert werden.
Tipp
Wenn Sie die differentielle Privatsphäre mit der Vorlage „Audience Overlap“ aktivieren, berechnen Sie keine Überlappungsstatistiken. Dadurch wird der größte Teil des Datenschutzbudgets des Benutzers verbraucht, sodass nur wenig oder gar kein Budget für die Durchführung von Analysen bleibt.
Nutzung – Clean Rooms-UI¶
In der Clean Rooms-UI wird dieser Anwendungsfall durch die vorgefertigte Vorlage Audience Overlap & Segmentation unterstützt. Obwohl diese Vorlage für Anwendungsfälle in Marketing und Werbung gedacht ist, kann sie für jeden Überschneidungs- und Segmentierungs-Anwendungsfall in allen Branchen verwendet werden. Folgen Sie den nachfolgenden Schritten, um mehr zur Erstellung und Verwendung dieser Vorlage zu erfahren.
Bemerkung
Wenn Sie diese Analyse in der Clean Rooms-UI ausführen, können die Überlappungsprozentsätze variieren, je nachdem, wer die Analyse ausführt. Dies liegt daran, dass der Prozentsatz als (übereinstimmende IDs in meiner Tabelle)/(Gesamtzahl der IDs in meiner Tabelle) berechnet wird. Beispiel: Teilnehmer A hat 100 IDs, während Teilnehmer B 500 IDs hat. Wenn sich beide mit 50 IDsüberschneiden, sieht A eine Überlappung von 50 %, B aber nur von 10 %.
Wenn dieselbe ID von den Daten von Teilnehmer A mit mehreren IDs in den Daten von Teilnehmer B übereinstimmt, variiert die Überlappung, je nachdem, wer die Analyse durchführt.
Features der Webvorlage:
Ein-Klick-Aktivierung, falls von Ihrem Clean Room-Administrator konfiguriert.
Verwendung von Identitätsanbietern mit nur einem Klick, wenn dies von Ihrem Clean Room-Administrator konfiguriert wurde.
Unterstützung für vom Anbieter durchgeführte Analysen.
Beide Seiten können Daten importieren und verknüpfbare (nicht anzeigbare), projizierte (anzeigbare) und aktivierbare Spalten angeben (die an einen bestimmten Dritten exportiert werden können, wenn die Aktivierung aktiviert ist).
Überlappende Abfrage für eine Verbraucher- und eine Anbietertabelle aus den verfügbaren Tabellen.
Konfigurierbare differentielle Privatsphäre.
Bemerkung
Probieren Sie das Tutorial zur Weboberfläche aus, um eine vollständige End-to-End-Anleitung der Verwendung von Clean Rooms in der Clean Rooms-UI zu erhalten. Diese Vorlage wird auch in diesem Tutorial behandelt.
Schritt 1: Anbieter erstellt den Clean Room¶
Hier sehen Sie, wie ein Anbieter einen Clean Room mit der Vorlage Audience Overlap & Segmentation erstellt und konfiguriert:
Melden Sie sich bei der Clean Rooms-UI an und erstellen Sie einen neuen Clean Room.
Gehen Sie unter Add Data wie folgt vor:
Wählen Sie die Tabellen aus, die Sie mit dem Clean Room verknüpfen (importieren) möchten. Wenn die Tabellen, die Sie benötigen, nicht aufgeführt sind, wenden Sie sich an einen Clean Room-Administrator.
Gehen Sie unter Specify Join Policies wie folgt vor:
Wählen Sie, welche Spalten ein Teilnehmer aus Ihren Tabellen verknüpfen kann. Denken Sie daran, dass verknüpfbare Spalten nicht angezeigt oder in der Analyse zur Segmentierung, Filterung oder Gruppierung verwendet werden können.
Wenn Sie einen Identitätsanbieter verwenden möchten, um Entitäten aufzulösen, die mehrere Bezeichner haben könnten, z. B. eine einzelne Person, die mehrere E-Mail-Konten in verschiedenen Datenbanken hat, wählen Sie einen Identitätsanbieter im Identity Hub.
Gehen Sie unter Configure Analysis & Query wie folgt vor:
Wählen Sie Audience Overlap & Segmentation als Analysetyp. (Sie können mehrere Vorlagen für einen Clean Room auswählen.) Die Konfigurationsoptionen für jede Vorlage werden auf der Seite angezeigt.
Wählen Sie unter Tables aus, welche Tabellen, die Sie zuvor verknüpft haben, den Verbrauchern in diesem Clean Room mit dieser Vorlage zur Verfügung stehen sollen.
Verwenden Sie Segmentation & Attribute Columns, um auszuwählen, welche Spalten in den Abfrageergebnissen angezeigt werden. Der Teilnehmer kann ausgewählte Spalten anzeigen, filtern und nach ihnen gruppieren. Teilnehmer können diese Attributwerte aktivieren, wenn die Snowflake-Aktivierung im Clean Room aktiviert ist. Wenn Sie eine Spalte hier nicht sehen, liegt das wahrscheinlich daran, dass Sie sie als verknüpfbar markiert haben. Eine Spalte kann nicht gleichzeitig verknüpfbar und in den Abfrageergebnissen sichtbar sein.
Allow categorical value previews during filtering gibt an, ob die Vorschau die tatsächlichen Werte anzeigt. Sie ist standardmäßig aktiviert, wenn weniger als 20 unterschiedliche Werte in der Spalte vorhanden sind, aber standardmäßig deaktiviert, wenn mehr als 20 unterschiedliche Werte vorhanden sind, um PII zu schützen.
Lesen Sie den Abschnitt Activation Settings, um die Aktivierung für die Ergebnisdaten zu aktivieren, zu konfigurieren oder zu deaktivieren:
Wählen Sie die ID Columns, die während der Aktivierungs-Anwendungsfälle verfügbar sein sollen. Standardmäßig werden die Spalten der Verknüpfungsrichtlinie automatisch ausgewählt.
Aktivieren Sie Allow non-overlap activation, um IDs aus Ihrem Datensatz ohne übereinstimmende IDs im Datensatz Ihres Teilnehmers zu aktivieren. Wenn Sie z. B. 100 IDs einfügen und eine Überlappungsanalyse mit Ihrem Teilnehmer durchführen und nur 25 IDs sich überlappen, würde die Aktivierung ohne Überlappung die 75 nicht übereinstimmenden IDs aus Ihrem Datensatz aktivieren.
Überprüfen Sie Enabled Partners, um sicherzustellen, dass nur Ihre bevorzugten Aktivierungsziele in Ihrem Clean Room aktiviert sind. Wenn Sie eine Änderung der aktivierten Ziele wünschen, wenden Sie sich an einen Clean Room-Administrator.
Aktualisieren Sie die standardmäßigen Privacy Settings nach Bedarf:
Threshold Value ist standardmäßig aktiviert und auf 5 eingestellt. Dies verhindert, dass Ergebnisse für Gruppen angezeigt werden, bei denen die eindeutige Anzahl in einer Spalte der Verknüpfungsrichtlinie unter diesem Schwellenwert liegt.
Differential Privacy ist standardmäßig deaktiviert. Wenn sie aktiviert ist, bietet sie Schutz vor potenziellen Differenzierungsangriffen, indem sie den Ergebnissen Rauschen hinzufügt und die Anzahl der täglichen Abfragen begrenzt. In Differentielle Privatsphäre in Snowflake Data Clean Rooms erhalten Sie weitere Informationen und erfahren mehr über die Kosten für die Aktivierung dieses Features.
Gehen Sie unter Share clean rooms wie folgt vor:
Erweitern Sie das Menü Select collaborator, um Teilnehmer zum Clean Room hinzuzufügen. Teilnehmer erhalten eine E-Mail, in der sie eingeladen werden, Ihrem Clean Room beizutreten und ihn zu nutzen (siehe unten). Die Liste der Teilnehmer auf der Seite zeigt alle Konten, einschließlich Ihres eigenen, die auf diesen Clean Room zugreifen können.
Wählen Sie Enable run analysis and query neben einem Teilnehmer, um festzulegen, ob dieses Konto eine Vorlage im Clean Room ausführen kann. Standardmäßig kann Ihr eigenes Konto keine Analyse im Clean Room durchführen (d. h. vom Anbieter durchgeführte Analysen sind standardmäßig deaktiviert). Standardmäßig können Verbraucher jede Vorlage im Clean Room ausführen.
Schritt 2: Verbraucher tritt dem Clean Room bei¶
Hier sehen Sie, wie ein Verbraucher einem Clean Room beitritt, der die Analysevorlage Audience Overlap & Segmentation enthält, und diesen konfiguriert:
Melden Sie sich bei der Clean Rooms-UI an und treten Sie dem Clean Room bei.
Gehen Sie unter Add Data wie folgt vor:
Wählen Sie die Tabellen aus, die Sie mit dem Clean Room verknüpfen (importieren) möchten. Wenn die Tabellen, die Sie benötigen, nicht aufgeführt sind, wenden Sie sich an einen Clean Room-Administrator.
Gehen Sie unter Specify Join Policies wie folgt vor:
Entscheiden Sie, welche verknüpfbaren Spalten in Ihren Daten den verknüpfbaren Spalten in den Daten des Anbieters zugeordnet werden. Sie geben bei jeder Ausführung an, welche dieser Spalten verknüpft werden sollen.
Wenn Sie einen Identitätsanbieter verwenden möchten, um Entitäten aufzulösen, die mehrere Bezeichner haben könnten, z. B. eine einzelne Person, die mehrere E-Mail-Konten in verschiedenen Datenbanken hat, wählen Sie einen Identitätsanbieter im Identity Hub.
Im Schritt Configure Analysis & Query gehen Sie wie folgt vor:
Wählen Sie die Analyse Audience Overlap & Segmentation, um die Konfigurationsoptionen für diese Vorlage anzuzeigen.
Wählen Sie aus dem Dropdown-Menü Tables, welche Ihrer Tabellen in dieser Analyse verwendet werden sollen.
Verwenden Sie Segmentation & Attribute Columns, um auszuwählen, welche Spalten in den Abfrageergebnissen angezeigt werden. Diese Spalten können auch aktiviert werden, wenn die Snowflake-Aktivierung im Clean Room aktiviert ist. Wenn Sie eine Spalte hier nicht sehen, liegt das wahrscheinlich daran, dass Sie sie als verknüpfbar markiert haben. Eine Spalte kann nicht gleichzeitig verknüpfbar und in den Abfrageergebnissen sichtbar sein.
Wählen Sie die ID Columns, die während der Aktivierungs-Anwendungsfälle verfügbar sein sollen. Standardmäßig werden die Spalten der Verknüpfungsrichtlinie automatisch ausgewählt.
Aktivieren Sie optional Allow activation for clean room provider, damit der Anbieter des Clean Room die unterstützten Aktivierungsziele aktivieren kann. Diese Option wird nur angezeigt, wenn die von Anbieter durchgeführte Analysen im Clean Room aktiviert sind. Beachten Sie, dass die Aktivierung dieser Option die Aktivierung von Daten auf Zeilenebene im Konto des Anbieters ermöglicht. Beachten Sie, dass dem Verbraucher bei der Abfrage und Aktivierung durch Anbieter Rechenkosten in Rechnung gestellt werden. Allerdings muss der Verbraucher zustimmen, die Aktion des Anbieters zuzulassen.
Überprüfen Sie Enabled Partners, um sicherzustellen, dass die bevorzugten Aktivierungsziele im Clean Room aktiviert sind. Wenn Sie eine Änderung der aktivierten Ziele wünschen, wenden Sie sich an den Anbieter des Clean Room.
Klicken Sie auf Finish, um Ihre Ergebnisse zu speichern. Um die Analyse durchzuführen, lesen Sie den nächsten Abschnitt.
Schritt 3: Verbraucher führt die Analyse durch¶
Bemerkung
Die Standardkonfiguration erlaubt es nur dem Verbraucher, eine Analyse mit dieser Vorlage durchzuführen. Um die vom Anbieter durchgeführte Analyse mit dieser Vorlage zu aktivieren, muss der Anbieter die Registerkarte Share clean rooms in der Clean Room-Konfiguration öffnen und Enable run analysis and query neben dem Namen seines Kontos auswählen.
Nachdem Anbieter und Verbraucher den Clean Room für die Überlappung und Segmentierung von Zielgruppen konfiguriert haben, kann jede Partei, die über die Berechtigung zur Durchführung einer Analyse verfügt, dies wie folgt tun:
Navigieren Sie in der Clean Rooms-UI zu Clean rooms.
Wählen Sie Run für den Clean Room, in dem Sie die Überlappung der Zielgruppe konfiguriert haben, und wählen Sie dann Audience Overlap & Segmentation > Proceed. (Rufen Sie alternativ die Seite Analyses & Queries auf, wählen Sie + New Analysis & Query, wählen Sie den Audience Overlap & Segmentation-Typ und wählen Sie dann den Clean Room, für den dieser Analysetyp konfiguriert ist)
Richten Sie die Details der Ausführung im Query Configurations section ein:
My tables - Wählen Sie, welche Ihrer Tabellen mit den Tabellen Ihres Teilnehmers verknüpft werden sollen.
Collaborator table - Wählen Sie eine Teilnehmertabelle, mit der Sie Ihre Tabelle verknüpfen möchten.
My join columns - Wählen Sie alle Spalten aus, die zwischen den Tabellen verknüpft werden sollen.
User segmentation - Wählen Sie optional gruppierende Spalten aus.
Filters - Geben Sie optional einen oder mehrere Filter für Spalten an, die bei der Einrichtung als Segmentierungs- und Attributspalten angegeben wurden.
Privacy settings - Diese Abfrage implementiert die differentielle Privatsphäre und eine Mindestanzahl von Zeilen pro Gruppierung. Hier können Sie die von Ihnen genutzte und verbleibende differentielle Privatsphäre und die Mindestgruppengröße sehen.
Wenn Sie die Analyse als Verbraucher durchführen, können Sie die Warehouse-Größe ändern, um die Abfragezeiten durch die Auswahl eines größeren Warehouse zu verbessern oder die Kosten durch die Auswahl eines kleineren Warehouse zu senken. Wenn Sie eine Analyse als Anbieter durchführen, steht die Auswahl des Warehouse nicht zur Verfügung, aber die automatische Skalierung wird versuchen, die Abfragezeiten zu optimieren.
Wählen Sie Run aus. Wenn dies eine neue Abfrage ist, gehen Sie wie folgt vor:
Geben Sie einen Namen für Ihre Analyse und Abfrage an.
Wählen Sie Save aus, um die Ausführung zu starten oder zu planen. Es kann einige Zeit dauern, bis jede Ausführung abgeschlossen ist. Sie können den Analysestatus oder die Ergebnisse auf der Seite Analysis & Queries in der Clean Rooms-UI überprüfen.
Verwendung von Code¶
Sie können ein Beispiel-Notebook herunterladen und ausführen, das zeigt, wie Sie das Überlappungs- und Segmentierungsbeispiel im SQL-Code verwenden. Dieses Beispiel kann in Snowsight hochgeladen und ausgeführt werden.
Das Notebook zeigt nicht, wie man Identitätsanbieter, Aktivierung für Drittanbieter oder vom Anbieter durchgeführte Analysen verwendet. In den verlinkten Themen erfahren Sie, wie Sie diese Aktionen im Code durchführen können.
Voraussetzungen
Sie müssen zwei Konten in derselben Organisation haben und Snowflake Data Clean Rooms muss installiert sein. Verwenden Sie ein Konto für den Anbieter, das andere Konto für den Verbraucher.
Beispielcode installieren und ausführen
Installieren Sie das Notebook sowohl in Ihrem Anbieter- als auch in Ihrem Verbraucherkonto. Um ein Notebook hochzuladen, gehen Sie wie folgt vor:
Navigieren Sie zu Projects » Notebooks in Snowsight.
Wählen Sie + Notebook » Import .ipynb file aus.
Wählen Sie die heruntergeladene .ipynb-Datei aus.
Benennen Sie die Datei wie gewünscht, und wählen Sie eine Datenbank und ein Schema.
Behalten Sie das Standard-Warehouse
APP_WH
bei.Wählen Sie Create aus.
Öffnen Sie das Notebook im Anbieterkonto und füllen Sie den Anbieterteil aus, um den Clean Room zu erstellen.
Öffnen Sie das Notebook im Verbraucherkonto und füllen Sie den Verbraucherteil aus, um den Clean Room zu installieren und zu konfigurieren und die Vorlage auszuführen.