DCM Projects für Datenpipelines¶
DCM Projects bieten eine Entwicklerumgebung für den gesamten Lebenszyklus, die Funktionen umfasst, die auf die Verwaltung von Datenpipelines zugeschnitten sind.
Die Pipeline-spezifischen Befehle gelten nicht für alle Objekttypen. Sie erweitern die zentralen Befehle für die folgenden Anwendungsfälle in der Pipeline:
REFRESH-Befehl für dynamische Tabellen verwaltet von einem DCM project.
TEST-Befehl für Datenqualitätserwartungen, angehängt an verwaltete Objekte.
Befehl PREVIEW zur Überprüfung der Beispielausgabe einer dynamischen Tabelle, einer Ansicht oder einer Tabelle vor der Bereitstellung.
REFRESH-Befehl für dynamische Tabellen¶
Nachdem Sie eine Änderung der Pipeline-Definition bereitgestellt haben, können Sie die dynamischen Tabellen innerhalb des Pipeline-Projekts aktualisieren, bevor Sie die Erwartungen an die Datenqualität testen, sodass jede neue Transformationslogik von durchgängig angewendet wird.
Sie können alle vom DCM project verwalteten dynamischen Tabellen und deren erforderliche vorgelagerte dynamische Tabellen mit einem Befehl aktualisieren. Dieser Befehl gilt nur für dynamische Tabellen, die vom referenzierten Projekt bereitgestellt und verwaltet werden, unabhängig von Definitionsdateien. Andere Objekttypen, wie z. B. Aufgaben, sind davon nicht betroffen.
Siehe TEST-Befehl für Datenqualitätserwartungen für Verwendungsbeispiele, die REFRESH und TEST kombinieren.
Der Befehl wird ausgeführt, bis alle Aktualisierungen der dynamischen Tabellen abgeschlossen sind, und dann wird eine Zusammenfassung der Zeilenänderungen oder Fehler für jede dynamische Tabelle zurückgegeben.
So führen Sie den Befehl REFRESH aus:
Informationen zum REFRESH ALL-Ausgabeformat, einschließlich des JSON-Schemas und Beispiele, finden Sie im Abschnitt zur REFRESH ALL-Ausgabe in der EXECUTE DCM PROJECT-Befehlsreferenz.
TEST-Befehl für Datenqualitätserwartungen¶
Sie können Datenqualitätserwartungen als Qualitäts-Gateways für alle Phasen Ihrer Datentransformation festlegen:
Verknüpfen Sie die Erwartungen mit den Rohdaten in Ihren Zieltabellen der Bronze-Schicht, um sicherzustellen, dass Ihre Roheingaben die Erwartungen erfüllen und keine Fehler bei der Transformation verursachen.
Verknüpfen Sie Erwartungen als Qualitätssicherungspunkte mit Ihrer Silber-Schicht, um das Debuggen von Datenproblemen zu erleichtern, indem Sie Checkpoints in verschiedenen Transformationsphasen einrichten.
Verknüpfen Sie die Erwartungen mit Ihrer Gold-Schicht, um die Ausgabequalität Ihres Datenprodukts sicherzustellen.
Verknüpfen Sie die Erwartungen der nachgelagerten Verbraucher Ihres Datenprodukts mit Ihrer Gold-Schicht, damit Sie diese Erwartungen überprüfen können, bevor Sie grundlegende Änderungen vornehmen.
Unter Datenmetrikfunktion finden Sie Informationen zum Verknüpfen von Erwartungen in DCM-Projekten.
Sie können alle Datenqualitätserwartungen testen, die mit Tabellen, dynamischen Tabellen oder Ansichten verknüpft sind, die vom DCM project mit einem Befehl verwaltet werden.
Datenmetrikfunktionen, die ohne Erwartungen verknüpft sind, werden nicht geprüft.
Sie können die CLI-Befehle zum Einrichten automatisierter Tests als Teil Ihres CI/CD-Workflows verwenden. Beispiel: Wenn Sie produktionsähnliche Daten in einer QA-, Test- oder Stagingumgebung haben, befolgen Sie diese Schritte:
PLAN mit QA, um die erwarteten Änderungen der Projektdefinition zu überprüfen.
DEPLOY in QA.
REFRESH ALL dynamische Tabellen auf QA, um Daten auf der Grundlage einer neuen Transformationslogik und aktualisierter Definitionen zu aktualisieren, sodass die Erwartungen nicht mit veralteten Daten getestet werden.
TEST ALL Datenqualitätserwartungen, die mit Tabellenobjekten in der QA-Umgebung verknüpft sind, um zu überprüfen, ob die neu bereitgestellte Logik wie erwartet funktioniert und keine negativen Nebeneffekte auf die erwartete Form Ihrer Datenausgabe hat.
Wenn alle Erwartungen an QA erfüllt sind, fahren Sie mit PLAN und DEPLOY in Ihrer Produktionsumgebung fort.
So führen Sie den Befehl TEST aus:
Informationen zum TEST ALL-Ausgabeformat, einschließlich des JSON-Schemas und Beispiele, finden Sie im Abschnitt zur TEST ALL-Ausgabe in der EXECUTE DCM PROJECT-Befehlsreferenz.
Befehl PREVIEW¶
Wenn Sie die SELECT-Anweisung einer dynamischen Tabelle oder Ansicht schreiben oder ändern, hilft eine Beispielausgabe dabei, die Form der Daten zu validieren. Bei komplexen Abstammungsdiagrammen mit mehreren Transformationsschritten können Sie die Ausgabe einer nachgelagerten Ansicht oder einer dynamischen Tabelle überprüfen, wenn Sie Änderungen vorgelagert vornehmen.
Um vor der Bereitstellung zu überprüfen, ob die Transformation in Ihrem Code zu der erwarteten Datenausgabe führt, führen Sie den Befehl PREVIEW aus.
Der PREVIEW-Befehl führt PLAN aus, um die aktuellen Definitionen zu kompilieren, unabhängig von einem bereitgestellten Status, und gibt dann eine Datenstichprobe für eine angegebene dynamische Tabelle, Ansicht oder reguläre Tabelle zurück.
Beachten Sie die folgenden Anforderungen und Hinweise:
Der PREVIEW-Befehl muss immer auf einen vollqualifizierten Namen eines Tabellenobjekts verweisen, ohne Jinja-Variablen.
Um Beispieldaten in der Ausgabe anzuzeigen, müssen Sie sicherstellen, dass die Daten bereits in den Quelltabellen verfügbar sind.
PREVIEW fragt alle SELECT-Anweisungen von referenzierten dynamischen Tabellen und Ansichten ab, aber es werden keine Aufgaben oder CREATE TABLE AS SELECT-Anweisungen ausgeführt.
So führen Sie den Befehl PREVIEW aus: