Snowflake Data Clean Room: Externe Daten von Google Cloud Platform¶
Daten, die in einem Snowflake Data Clean Room analysiert werden, können in Snowflake selbst oder extern in einem Speicher eines Cloudanbieters gespeichert sein oder beides. Ein Konnektor ermöglicht es den Teilnehmern, vom Reinraum aus auf externe Daten eines Cloudanbieters zuzugreifen.
Der Konnektor für externe Daten verwendet Snowflake-externe Tabellen, um Daten verfügbar zu machen. Seien Sie sich bewusst, dass das Verknüpfen von externen Tabellen in einem Reinraum ein erhöhtes Sicherheitsrisiko birgt. Daher muss der Anbieter die Verwendung externer Tabellen im Reinraum ausdrücklich zulassen, bevor Verbraucher einen Konnektor zur Aufnahme externer Daten verwenden können. Wenn der Anbieter den externen Konnektor verwendet, wird der Verbraucher gewarnt, dass externe Tabellen verwendet werden, damit er entscheiden kann, ob er den Reinraum installieren möchte.
Unter diesem Thema wird beschrieben, wie Sie einen Konnektor verwenden, damit Reinraum-Analysten auf externe Daten aus einem Google Cloud Platform-Bucket zugreifen können.
Wichtig
Konnektoren von Drittanbietern werden nicht von Snowflake angeboten und können zusätzlichen Bedingungen unterliegen. Diese Integrationen werden Ihnen zur Verfügung gestellt, aber Sie sind für alle Inhalte verantwortlich, die an die Integrationen gesendet oder von ihnen empfangen werden.
Kunden sind dafür verantwortlich, alle erforderlichen Genehmigungen im Zusammenhang mit ihrer Nutzung von Snowflake Data Clean Rooms einzuholen. Bitte stellen Sie sicher, dass Sie die geltenden Gesetze und Vorschriften einhalten, wenn Sie Snowflake Data Clean Rooms verwenden, auch in Verbindung mit Konnektoren von Drittanbietern zu Aktivierungszwecken.
Voraussetzungen¶
So verwenden Sie den Konnektor für externe Daten:
Der Anbieter muss ausdrücklich die Verwendung von externen Tabellen im Reinraum erlauben.
Die Dateien müssen im Parquet-Format vorliegen.
Mit Google Cloud Platform-Bucket verbinden¶
Um Reinraum-Teilnehmern den Zugriff auf Daten in Google Cloud Platform (GCP)-Speicher zu ermöglichen, führen Sie folgende Schritte aus:
In der Reinraumumgebung: Erstellen Sie den Konnektor.
In der Reinraumumgebung: Authentifizieren Sie den Konnektor mit GCP.
In den folgenden Abschnitten werden diese Schritte ausführlicher erörtert:
URL des GCP-Buckets ermitteln¶
Der Reinraum-Konnektor benötigt die URL des GCP-Speicherbuckets, um auf die Daten zugreifen zu können. Bevor Sie den Konnektor erstellen, müssen Sie Folgendes tun:
Melden Sie sich bei Google Cloud Platform Console als Projekteditor an.
Wählen Sie im Console-Dashboard Cloud Storage » Browser aus.
Wählen Sie den Bucket aus, der die Daten enthält, auf die Sie vom Reinraum aus zugreifen möchten, und navigieren Sie zu dem Speicherort, an dem sich diese Daten befinden. Der Bucket darf nicht leer sein.
Wählen Sie das Kopiersymbol aus, um die URL des Speicherbuckets zu kopieren und für die nächste Aufgabe zu speichern.
Konnektor erstellen und Dienstkontobezeichner kopieren¶
Sie sind nun bereit, den Konnektor in der Reinraumumgebung zu erstellen. Sobald Sie den Konnektor erstellt haben, müssen Sie die Details seines Dienstkontos kopieren, damit er mit dem Bucket in GCP verknüpft werden kann. So erstellen Sie den Konnektor in Ihrer Reinraumumgebung:
Navigieren Sie zu der Anmeldeseite von Snowflake Data Clean Rooms.
Geben Sie Ihre E-Mail-Adresse ein, und wählen Sie Continue aus.
Geben Sie Ihr Kennwort ein.
Wenn Sie mit mehreren Reinraumumgebungen verbunden sind, wählen Sie das Snowflake-Konto aus, das Sie verwenden möchten.
Wählen Sie im linken Navigationsbereich Connectors aus, und erweitern Sie den Google Cloud-Bereich.
Geben Sie in das Feld Storage bucket URL die URL ein, die Sie aus GCP kopiert haben, und ersetzen Sie dann in der URL
https://
durchgcs://
.Wählen Sie Create aus. Der Reinraum generiert ein Dienstkonto, das er für den Zugriff auf GCP verwendet.
Verwenden Sie das Kopiersymbol, um den Bezeichner des Dienstkontos zu kopieren und für die nächste Aufgabe zu speichern.
Konnektor Berechtigungen erteilen¶
Reinräume benötigen die Berechtigung, auf externe Daten im GCP-Bucket zugreifen zu dürfen. Zum Erteilen dieser Berechtigungen wird zuerst eine dedizierte GCP-Rolle für das Dienstkonto des Konnektors erstellt und dann das Dienstkonto als Prinzipal des GCP-Buckets hinzugefügt.
So erstellen Sie die dedizierte GCP-Rolle für das Dienstkonto des Konnektors:
Melden Sie sich bei Google Cloud Platform Console als Projekteditor an.
Wählen Sie im Console-Dashboard IAM & admin » Roles aus.
Wählen Sie Create Role aus.
Geben Sie einen Namen und eine Beschreibung für die Rolle ein.
Wählen Sie Add Permissions aus, und fügen Sie dann die folgenden Berechtigungen hinzu:
storage.buckets.get
storage.objects.list
storage.objects.get
Nachdem Sie eine dedizierte Rolle erstellt haben, können Sie das Dienstkonto des Konnektors als Prinzipal des GCP-Buckets verknüpfen. So verknüpfen Sie das Dienstkonto:
Melden Sie sich bei Google Cloud Platform Console als Projekteditor an.
Wählen Sie im Console-Dashboard Cloud Storage » Browser aus.
Wählen Sie den Bucket aus, der die externen Daten enthält.
Wählen Sie Show Info Panel aus. Das Informationsfenster wird geöffnet.
Wählen Sie Add Principals aus.
Fügen Sie im Textfeld New Principals den Bezeichner des Dienstkontos ein, den Sie aus dem Reinraum kopiert haben.
Wählen Sie in der Dropdown-Liste Select a role die dedizierte Rolle aus, die Sie für das Dienstkonto erstellt haben.
Authentifizieren des Konnektors¶
Jetzt können Sie den Konnektor authentifizieren, um sicherzustellen, dass er auf den GCP-Bucket zugreifen kann. So authentifizieren Sie den Konnektor:
Wählen Sie im linken Navigationsbereich des Reinraums Connectors aus, und erweitern Sie den Google Cloud-Bereich. Wenn Sie aus der Reinraumumgebung abgemeldet sind, siehe Bei der Web-App anmelden.
Wählen Sie den GCP-Bucket aus, zu dem Sie eine Verbindung herstellen möchten, und wählen Sie Authenticate aus.
Zugriff auf externe Daten auf GCP entfernen¶
So entfernen Sie den Zugriff auf einen GCP-Bucket aus einer Reinraumumgebung:
Navigieren Sie zu der Anmeldeseite von Snowflake Data Clean Rooms.
Geben Sie Ihre E-Mail-Adresse ein, und wählen Sie Continue aus.
Geben Sie Ihr Kennwort ein.
Wenn Sie mit mehreren Reinraumumgebungen verbunden sind, wählen Sie das Snowflake-Konto aus, das Sie verwenden möchten.
Wählen Sie im linken Navigationsbereich Connectors aus, und erweitern Sie den Google Cloud-Bereich.
Suchen Sie den GCP-Bucket, der derzeit verbunden ist, und wählen Sie das Mülleimersymbol aus.