Einführung in Datenqualitätsprüfungen

Datenqualitätsprüfungen in Snowflake überprüfen kontinuierlich den Zustand Ihrer Daten. Mithilfe dieser Prüfungen können Sie gesetzliche Standards einhalten, Service-Level-Vereinbarungen durch genaue Metriken einhalten und die Glaubwürdigkeit bei datengestützten Entscheidungen durch eine automatisierte, konsistente Datenvalidierung aufbauen. Mit Cortex Data Quality können Sie AI nutzen, um agentenbasierte Datenqualitätsprüfungen auf der Grundlage von Merkmalen Ihrer Metadaten und Nutzungsmuster vorzuschlagen, sodass keine manuellen Prüfungen definiert werden müssen, was den Einrichtungsprozess beschleunigt, während Ihre Daten sicher in Snowflake gespeichert werden. Nach der Konfiguration werden die Qualitätsprüfungen automatisch nach dem von Ihnen gewählten Zeitplan ausgeführt und Verstöße werden gemeldet, damit Sie Korrekturmaßnahmen ergreifen können.

Erste Schritte

Snowflake bietet eine Weboberfläche, um Datenqualitätsprüfungen einzurichten und die Ergebnisse dieser Prüfungen zu überwachen.

Führen Sie zunächst eine der folgenden Aktionen aus:

Zentrale Konzepte für Datenqualitätsprüfungen

Datenmetrikfunktion (DMF)

Eine DMF misst ein Attribut Ihrer Daten, z. B. wie viele NULL-Werte in einer Spalte vorhanden sind oder wie oft eine Tabelle aktualisiert wird. Die DMF gibt einen Wert zurück, der auf dem aktuellen Stand Ihrer Daten basiert, definiert aber nicht, ob dieser Wert ein Datenqualitätsproblem darstellt. Eine DMF ist ein Baustein für eine Datenqualitätsprüfung.

Snowflake bietet System-DMFs zum Messen gängiger Kennzahlen ohne Konfiguration. Eine Liste der System-DMFs, die für verschiedene Dimensionen verfügbar sind, finden Sie unter System-Datenmetrikfunktion.

Wenn es keine System-DMF für die Kennzahl gibt, die Sie überwachen möchten, können Sie eine kundenspezifische DMF* definieren. Informationen zum Erstellen einer kundenspezifischen DMF finden Sie unter Benutzerdefinierte Funktionen für Datenmetriken.

Erwartungen

Eine Erwartung wird mit einer DMF zum Erstellen einer Datenqualitätsprüfung kombiniert. Wenn eine DMF einen Wert zurückgibt, wird dieser mit der Definition der Erwartung verglichen, um festzustellen, ob die Daten die Prüfung bestanden haben oder nicht bestanden haben. Rückgabewerte, die die Prüfung nicht bestanden haben, werden als Erwartungsverstöße gemeldet, sodass Sie entsprechende Maßnahmen ergreifen können.

Wenn Sie Snowsight verwenden, um eine Datenqualitätsprüfung zu erstellen, wählen Sie die DMF, und definieren Sie gleichzeitig die Erwartung. Sie können auch SQL nutzen, um direkt mit den Erwartungen zu arbeiten.

Anomalieerkennung

Die Anomalieerkennung verwendet historische Daten, um automatisch zu erkennen, wann ein DMF-Rückgabewert über oder unter einem vorhergesagten Bereich liegt. Derzeit kann Snowflake Anomalien bezüglich der Menge und Aktualität Ihrer Daten automatisch erkennen. Weitere Informationen dazu finden Sie unter Erkennen von Anomalien bei der Datenqualität.

DMF-Zeitplan

Der DMF-Zeitplan für eine Tabelle oder eine Ansicht bestimmt, wie oft eine DMF ausgeführt wird. Da eine DMF eine Datenqualitätsprüfung ermöglicht, bestimmt der DMF-Zeitplan, wie oft die Qualitätsprüfung durchgeführt wird. Standardmäßig wird laut DMF-Zeitplan einmal pro Stunde eine DMF ausgeführt. Weitere Informationen zum Anpassen des Zeitplans für eine Tabelle oder eine Ansicht finden Sie unter Anpassen, wie oft Qualitätsprüfungen ausgeführt werden.

Der DMF-Zeitplan hat keinen Einfluss darauf, wie oft Snowflake prüft, ob eine Anomalie vorliegt.

Unterstützte Tabellenarten

Sie können für die folgenden Arten von Tabellenobjekten eine DMF einstellen:

  • Dynamische Tabelle

  • Ereignistabelle

  • Externe Tabelle

  • Apache Iceberg™-Tabelle

  • Materialisierte Ansicht

  • Tabelle (CREATE TABLE), einschließlich temporärer und transienter Tabellen

  • Ansicht

Sie können eine DMF nicht für eine Hybridtabelle oder ein Stream-Objekt festlegen.

Hinweise zu Kosten

Die DMFs, die Datenqualitätsprüfungen ermöglichen, verwenden serverlose Computeressourcen, die Kosten verursachen. Die Preise für diese Kosten finden Sie unter ` Snowflake Service Consumption Table`_.

Die von den serverlosen Computeressourcen verbrauchten Credits sind auf Ihrer monatlichen Rechnung unter der Kategorie „Data Quality Monitoring“ (Datenqualitätsüberwachung) aufgeführt. Diese Credits beinhalten die Berechnungen, die von allen system- oder benutzerdefinierten Datenqualitätsmetriken, die Sie verwenden, verbraucht werden. Das Erstellen einer DMF wird Ihnen nicht in Rechnung gestellt.

  • Die Abrechnung erfolgt nur, wenn eine geplante DMF auf einem Objekt ausgeführt wird. Die Nutzung ungeplanter Datenmetrikfunktionen, wie z. B. das Aufrufen einer DMF mit einer SELECT-Anweisung, wird Ihnen nicht in Rechnung gestellt.

  • Die Protokollierungsinfrastruktur konsolidiert die Ausgaben der Metriken in der Ereignistabelle. Der Verbrauch, der durch den Protokollierungsdienst entsteht, wird auf Ihrer monatlichen Rechnung unter „Logging“ (Protokollierung) ausgewiesen.

Tipp

Um den Verbrauch im Zusammenhang mit Qualitätsprüfungen zu verfolgen, können Sie die folgenden Ansichten abfragen:

  • DATA_QUALITY_MONITORING_USAGE_HISTORY, um Ihren Credit-Verbrauch im Zusammenhang mit der Nutzung von DMFs auf Ihrem Konto zu verfolgen.

  • METERING_DAILY_HISTORY, um die täglichen Credits zu verfolgen, die für ein Konto in Ihrer Organisation verbraucht werden. Die Spalte service_type gibt DATA_QUALITY_MONITORING an.

Replikation

Informationen zu Replikation und DMFs finden Sie unter Replikation von Datenmetrikfunktionen (DMFs).

Einschränkungen

Beachten Sie die folgenden Einschränkungen bei der Verwendung von DMFs:

  • Sie können pro Konto insgesamt nur 10.000 Zuordnungen von DMFs zu Objekten haben. Jede Instanz einer DMF auf einer Tabelle oder Ansicht zählt als eine Zuordnung.

  • Datenfreigabe: Sie können keine Berechtigungen für eine DMF erteilen, um eine DMF für eine freigegebene Tabelle oder Ansicht freizugeben oder festzulegen.

  • Das Setzen einer DMF auf ein Objekt-Tag wird nicht unterstützt.

  • Sie können keine DMF auf Objekte in einem Lesekonto setzen.

  • Probekonten unterstützen dieses Feature nicht.