Analysieren des Abfrageverlaufs

Auf der Seite Query History können Benutzer Details zu allen Abfragen anzeigen, die in den letzten 14 Tagen ausgeführt wurden.

Unter diesem Thema:

Anzeigen des Abfrageverlaufs

Navigation:

Compute » Query History

Ein Benutzer kann die Seite Query History auch über den Bereich Query Details einer Abfrage in einem Snowsight-Arbeitsblatt aufrufen. Klicken Sie unter » View in Query History auf die Aktionsschaltfläche ().

Anzeigen von Details zum Abfrageverlauf

Die Seite Query History hat die folgenden Funktionen:

Query History page
  1. Anzahl der Abfragen, die mit den aktuellen Filtern übereinstimmen.

  2. Steuerelemente zur Verwaltung der Anzeige:

    • Dropdown-Listen zum Filtern des Abfrageverlaufs nach Status, Benutzer und zusätzlichen Filtern.

    • Dropdown-Liste zum Hinzufügen oder Entfernen von Spalten in der Abfrageverlaufstabelle.

    • Suchfeld und Dropdown-Liste, um die aktive Rolle für die Anzeige des Abfrageverlaufs zu ändern.

    • Aktualisierungsschaltfläche, um die Tabelle mit den Abfragen zu aktualisieren, die seit der letzten Aktualisierung der Tabelle initiiert wurden oder ihren Status geändert haben.

  3. Tabelle der Abfragen und anderer SQL-Anweisungen, die in den letzten 14 Tagen initiiert wurden.

    Sie können Spalten hinzufügen oder entfernen, indem Sie in der oberen rechten Ecke der Seite auf die Schaltfläche Columns klicken und die anzuzeigenden Spalten auswählen.

    Klicken Sie auf eine beliebige Zeile, um das Abfrageprofil für diese Abfrage anzuzeigen.

Verwenden von Query Profile

Navigation:

Monitor » Query History » Klicken Sie auf die Zeile der Abfrage, die Sie interessiert.

Query Profile bietet eine grafische Darstellung der Hauptkomponenten des Verarbeitungsplans der ausgewählten Abfrage mit Statistiken zu jeder Komponente sowie Details und Statistiken zur Gesamtabfrage.

Query Profile ist ein leistungsfähiges Tool zum Verständnis der Mechanismen von Abfragen. Es kann verwendet werden, wenn Sie mehr über die Leistung oder das Verhalten einer bestimmten Abfrage erfahren müssen. Das Tool soll Ihnen helfen, typische Fehler in SQL-Abfrageausdrücken zu erkennen, um potenzielle Leistungsengpässe und Verbesserungsmöglichkeiten zu identifizieren.

Benutzeroberfläche von Query Profile

Dieses Thema bezieht sich auf die folgende SQL-Beispielabfrage, die zwei Tabellen miteinander verknüpft (Join):

SELECT sum(j)
FROM x JOIN y USING (i)
WHERE j > 300
  AND i < (SELECT AVG(j) FROM x);

Der folgende Screenshot zeigt das Profil für diese Abfrage:

Step 1

Die Schnittstelle besteht aus folgenden Hauptelementen:

Schritte

Wenn die Abfrage in mehreren Schritten verarbeitet wurde, können Sie zwischen den einzelnen Schritten wechseln.

Operatorbaum

Im mittleren Bereich werden alle Operatorknoten für den ausgewählten Schritt grafisch dargestellt, einschließlich der Beziehungen zwischen den einzelnen Operatorknoten.

Abfragedetails und Profilübersicht

Die Bereiche auf der rechten Seite zeigen eine Übersicht des Abfrageprofils, die eine Reihe von Ausführungsstatistiken und Metriken anzeigt. Bei Auswahl eines Operatorknotens wechselt die Anzeige zu den Operatordetails.

Schritte

Abfragen werden meist in mehreren Schritten verarbeitet. Die Beispielabfrage wurde in 2 Schritten verarbeitet:

  • In Schritt 1 wurde die Summe der Spalte x.j berechnet.

  • In Schritt 2 wurde dieses Zwischenergebnis zur Berechnung des endgültigen Abfrageergebnisses verwendet.

Query Profile zeigt jeden Verarbeitungsschritt in einem separaten Bereich an. Sie können zwischen den Bereichen wechseln, indem Sie auf den jeweiligen Schritt klicken. Wenn Sie für unsere Beispielabfrage auf Step 2 klicken, ändert sich die Ansicht wie folgt:

Step 2

Ausführungsplan von Abfragen

Der Strukturbaum bietet eine grafische Darstellung des Abfrageausführungsplans. Der Ausführungsplan setzt sich aus Objekten zusammen, die Rowset-Operatoren darstellen. Pfeile zwischen den Operatoren zeigen die Rowsets an, die von einem Operator zu einem anderen weitergegeben werden.

  • Rowset-Operatoren sind die Funktionsbausteine einer Abfrage. Sie sind für verschiedene Aspekte der Datenverwaltung und -verarbeitung verantwortlich, einschließlich Datenzugriff, Transformation und Aktualisierung.

    Jeder Operatorknoten im Strukturbaum enthält einige grundlegende Attribute:

    <Typ> [#]

    Operatortyp und ID-Nummer. ID kann verwendet werden, um einen Operator innerhalb eines Abfrageprofils eindeutig zu identifizieren (z. B. Aggregate [5] und Join [11] in der Abbildung oben).

    Eine Beschreibung aller Typen finden Sie unter Attribute weiter unten.

    Prozentsatz

    Anteil der Zeit, den dieser Operator im Abfrageschritt benötigt (z. B. 25 % für Aggregate [5]). Diese Informationen spiegeln sich auch in der orangefarbenen Leiste am unteren Rand des Operatorknotens wider und ermöglichen die einfache visuelle Identifizierung von leistungskritischen Operatoren.

    Label

    Operatorspezifische Zusatzinformationen (z. B. SUM(X.J) für Aggregate [5]).

  • Pfeile repräsentieren die Daten, die zwischen jedem Bedienerknoten ausgetauscht werden. Jeder Pfeil gibt die Anzahl der Datensätze an, die verarbeitet wurden (z. B. 4 von Join [11] bis Aggregate [5]).

Details zu Abfragen

Der Bereich enthält detaillierte Informationen zur Abfrage, einschließlich Status und Ausführungsdauer, Anzahl der zurückgegebenen Zeilen sowie Informationen zu den ausführenden Benutzern und dem Warehouse.

Die teuersten Knoten

Im Bereich werden alle Knoten aufgelistet, die 1 % oder mehr der gesamten Ausführungszeit der Abfrage (oder die Ausführungszeit für den angezeigten Abfrageschritt, wenn die Abfrage in mehreren Verarbeitungsschritten ausgeführt wurde) in Anspruch genommen haben. Der Bereich listet die Knoten nach Ausführungszeit in absteigender Reihenfolge auf, sodass Benutzer die teuersten Operatorknoten in Bezug auf die Ausführungszeit schnell finden können.

Profilübersicht

Der Bereich enthält Informationen dazu, welche Verarbeitungsaufgaben Abfragezeit verbraucht haben. Die Ausführungszeit enthält Informationen darüber, wofür die Zeit während der Verarbeitung einer Abfrage verbraucht wurde. Die aufgewendete Zeit kann in folgende Kategorien unterteilt werden:

  • Processing – Zeit, die von der CPU für die Datenverarbeitung verbraucht wurde.

  • Local Disk IO – Zeit, in der die Verarbeitung durch den Zugriff auf die lokale Festplatte blockiert wurde.

  • Remote Disk IO – Zeit, in der die Verarbeitung durch Remote-Festplattenzugriff blockiert wurde.

  • Network Communication – Zeit, in der die Verarbeitung auf die Netzwerkdatenübertragung wartete.

  • Synchronization – Verschiedene Synchronisationsaktivitäten zwischen den beteiligten Prozessen.

  • Initialization – Zeit, die für das Einrichten der Abfrageverarbeitung verbraucht wurde.

Statistiken

Eine wichtige Informationsquelle im Detailbereich sind die verschiedenen Statistiken, die in folgende Abschnitte unterteilt sind:

  • IO – Informationen zu den während der Abfrage ausgeführten Eingabe/Ausgabe-Operationen:

    • Scan progress – Prozentsatz der Daten, die bislang für eine bestimmte Tabelle gescannt wurden.

    • Bytes scanned – Anzahl der bislang gescannten Bytes.

    • Percentage scanned from cache – Prozentsatz der Daten, die vom lokalen Festplattencache gescannt wurden.

    • Bytes written – Geschriebene Bytes (z. B. beim Laden in eine Tabelle).

    • Bytes written to result – Bytes, die in ein Ergebnisobjekt geschrieben wurden.

    • Bytes read to result – Bytes, die aus einem Ergebnisobjekt gelesen wurden.

    • External Bytes scanned – Bytes, die von einem externen Objekt, z. B. einem Stagingbereich, gelesen wurden.

  • DML – Statistiken zu DML–Abfragen (Datenbearbeitungssprache):

    • Number of rows inserted – Anzahl der in eine Tabelle (oder Tabellen) eingefügten Zeilen.

    • Number of rows updated – Anzahl der in einer Tabelle aktualisierten Zeilen.

    • Number of rows deleted – Anzahl der aus einer Tabelle gelöschten Zeilen.

    • Number of rows unloaded – Anzahl der während des Datenexports entladenen Zeilen.

    • Number of bytes deleted – Anzahl der aus einer Tabelle gelöschten Bytes.

  • Pruning – Informationen zu den Auswirkungen der Tabellenverkürzung:

    • Partitions scanned – Anzahl der bisher gescannten Partitionen.

    • Partitions total – Gesamtanzahl der Partitionen einer Tabelle.

  • Spilling – Informationen zur Festplattennutzung für Operationen, bei denen Zwischenergebnisse nicht in den Arbeitsspeicher passen:

    • Bytes spilled to local storage – Datenmenge, die auf die lokale Festplatte übertragen wurde.

    • Bytes spilled to remote storage – Datenmenge, die auf die externe Festplatte übertragen wurde.

  • Network – Netzwerk-Kommunikation:

    • Bytes sent over the network – Über das Netzwerk gesendete Datenmenge.

  • External Functions – Informationen zu Aufrufen externer Funktionen:

    Die folgenden Statistiken werden für jede externe Funktion angezeigt, die von der SQL-Anweisung aufgerufen wird. Wenn dieselbe Funktion mehrmals von derselben SQL-Anweisung aufgerufen wurde, werden die Statistiken aggregiert.

    • Total invocations – Die Häufigkeit, mit der eine externe Funktion aufgerufen wurde. Der Wert kann sich von der Anzahl der externen Funktionsaufrufe im Text der SQL-Anweisung unterscheiden und zwar aufgrund der Anzahl der Batches, in die Zeilen unterteilt sind, der Anzahl der Wiederholungsversuche (bei vorübergehenden Netzwerkproblemen) usw.

    • Rows sent – Die Anzahl der an externe Funktionen gesendeten Zeilen.

    • Rows received – Die Anzahl der von externen Funktionen empfangenen Zeilen.

    • Bytes sent (x-region) – Die Anzahl der an externe Funktionen gesendeten Bytes. Wenn das Etikett „(x-region)“ enthält, wurden die Daten über Regionen hinweg gesendet (was sich auf die Abrechnung auswirken kann).

    • Bytes received (x-region) – Die Anzahl der von externen Funktionen empfangenen Bytes. Wenn das Etikett „(x-region)“ enthält, wurden die Daten über Regionen hinweg gesendet (was sich auf die Abrechnung auswirken kann).

    • Retries due to transient errors — Die Anzahl der Wiederholungen aufgrund vorübergehender Fehler.

    • Average latency per call – Die durchschnittliche Zeit pro Aufruf zwischen dem Zeitpunkt, zu dem Snowflake die Daten gesendet hat, und dem Zeitpunkt, zu dem Snowflake die zurückgegebenen Daten empfangen hat.

    Wenn der Wert eines Feldes, z. B. „Retries due to transient errors“, null ist, wird das Feld nicht angezeigt.

Attribute

In den folgenden Abschnitten finden Sie eine Liste der häufigsten Operatortypen und ihrer Attribute.

Datenzugriffs- und Datengenerierungsoperatoren

TableScan

Stellt den Zugriff auf eine einzelne Tabelle dar. Attribute:

  • Full table name – Name der Tabelle, auf die zugegriffen wird, einschließlich Datenbank und Schema.

  • Columns – Liste der gescannten Spalten

  • Table alias – Verwendeter Tabellenalias, falls vorhanden

  • Extracted Variant path – Liste der aus VARIANT-Spalten extrahierten Pfade

ValuesClause

Liste der Werte, die mit der VALUES-Klausel bereitgestellt werden. Attribute:

  • Number of values – Anzahl der produzierten Werte.

  • Values – Liste der produzierten Werte.

Generator

Generiert Datensätze mit dem TABLE(GENERATOR(...))-Konstrukt. Attribute:

  • rowCount – bereitgestellter rowCount-Parameter

  • timeLimit – bereitgestellter timeLimit-Parameter

ExternalScan

Stellt den Zugriff auf Daten dar, die in Stagingobjekten gespeichert sind. Kann Teil von Abfragen sein, die Daten direkt in Stagingbereichen scannen, aber auch Datenladeoperationen (d. h. COPY-Anweisungen).

Attribute:

  • Stage name – Name des Stagingbereichs, von dem die Daten gelesen werden.

  • Stage type – Typ des Stagingbereichs (z. B. TABLE STAGE).

InternalObject

Stellt den Zugriff auf ein internes Datenobjekt dar (z. B. eine Information Schema-Tabelle oder das Ergebnis einer vorherigen Abfrage). Attribute:

  • Object Name – Name oder Typ des Objekts, auf das zugegriffen wird.

Datenverarbeitungsoperatoren

Filter

Stellt eine Operation dar, mit der Datensätze gefiltert werden. Attribute:

  • Filter condition – Bedingung, die zum Filtern verwendet wird.

Join

Kombiniert zwei Eingaben unter einer bestimmten Bedingung. Attribute:

  • Join Type – Typ der Join-Verknüpfung (z. B. INNER, LEFT OUTER usw.)

  • Equality Join Condition – Listet bei Joins, die auf Gleichheit basierende Bedingungen verwenden, die zum Verbinden der Elemente verwendeten Ausdrücke auf.

  • Additional Join Condition – Einige Verbindungen verwenden Bedingungen mit Prädikaten, die nicht auf Gleichheit basieren. Diese werden hier aufgelistet.

Bemerkung

Join-Prädikate, die auf Ungleichheit basieren, können zu deutlich niedrigeren Verarbeitungsgeschwindigkeiten führen und sollten nach Möglichkeit vermieden werden.

Aggregatfunktionen

Gruppiert die Eingabe und berechnet Aggregatfunktionen. Kann SQL-Konstrukte wie GROUP BY oder SELECT DISTINCT darstellen. Attribute:

  • Grouping Keys – Wenn GROUP BY verwendet wird, werden die Ausdrücke aufgelistet, nach denen gruppiert wird.

  • Aggregate Functions – Liste der Funktionen, die für jede Aggregatgruppe berechnet wurden, z. B. SUM.

GroupingSets

Repräsentiert Konstrukte wie GROUPING SETS, ROLLUP und CUBE. Attribute:

  • Grouping Key Sets – Liste der Gruppierungssätze

  • Aggregate Functions – Liste der Funktionen, die für jede Gruppe berechnet wurden, z. B. SUM.

WindowFunction

Berechnet Fensterfunktionen. Attribute:

  • Window Functions – Liste der berechneten Fensterfunktionen.

Sort

Sortiert die Eingabe anhand eines gegebenen Ausdrucks. Attribute:

  • Sort Keys – Ausdruck, der die Sortierreihenfolge definiert.

SortWithLimit

Erstellt nach der Sortierung einen Teil der Eingabesequenz, normalerweise das Ergebnis eines ORDER BY ... LIMIT ... OFFSET ...-Konstrukts in SQL.

Attribute:

  • Sort Keys – Ausdruck, der die Sortierreihenfolge definiert.

  • Number of rows – Anzahl der erzeugten Zeilen.

  • Offset – Position in der sortierten Sequenz, ab der die produzierten Tupel ausgegeben werden.

Flatten

Verarbeitet VARIANT-Datensätze und vereinfacht sie ggf. in einem angegebenen Pfad. Attribute:

  • Input – Eingabeausdruck, der zum Vereinfachen der Daten verwendet wird.

JoinFilter

Spezielle Filteroperation, bei der Tupel entfernt werden, die als möglicherweise nicht mit der Bedingung eines Joins im Abfrageplan übereinstimmend identifiziert werden können. Attribute:

  • Original join ID – Join, mit dem Tupel identifiziert werden, die herausgefiltert werden können.

UnionAll

Verkettet zwei Eingänge. Attribute: keine.

ExternalFunction

Repräsentiert die Verarbeitung durch eine externe Funktion.

DML-Operatoren

Insert

Fügt Datensätze entweder durch eine INSERT- oder COPY-Operation zu einer Tabelle hinzu. Attribute:

  • Input expression – Ausdrücke, die eingefügt werden.

  • Table names – Namen der Tabellen, denen Datensätze hinzugefügt werden.

Delete

Entfernt Datensätze aus einer Tabelle. Attribute:

  • Table name – Name der Tabelle, aus der Datensätze gelöscht werden.

Update

Aktualisiert Datensätze in einer Tabelle. Attribute:

  • Table name – Name der aktualisierten Tabelle.

Merge

Führt eine MERGE-Operation für eine Tabelle aus. Attribute:

  • Full table name – Name der aktualisierten Tabelle.

Unload

Stellt eine COPY-Operation dar, bei der Daten aus einer Tabelle in einer Datei im Stagingbereich exportiert werden. Attribute:

  • Location – Name des Stagingbereichs, in den die Daten gespeichert werden.

Metadatenoperatoren

Einige Abfragen enthalten Schritte, bei denen es sich nicht um Datenverarbeitungsoperationen, sondern um reine Metadaten- bzw. Katalogoperationen handelt. Diese Schritte bestehen aus einem einzigen Operator. Einige Beispiele sind:

DDL- und Transaktionsbefehle

Werden zum Erstellen oder Ändern von Objekten, Sitzungen, Transaktionen usw. verwendet. Normalerweise werden diese Abfragen nicht von einem virtuellen Warehouse verarbeitet und führen zu einem Einzelschrittprofil, das der zugehörigen SQL-Anweisung entspricht. Beispiel:

CREATE DATABASE | SCHEMA | …

ALTER DATABASE | SCHEMA | TABLE | SESSION | …

DROP DATABASE | SCHEMA | TABLE | …

COMMIT

Befehl zur Tabellenerstellung

DDL-Befehl zum Erstellen einer Tabelle. Beispiel:

CREATE TABLE

Ähnlich wie andere DDL-Befehle führen diese Abfragen zu einem Einzelschrittprofil. Sie können jedoch auch Teil eines mehrstufigen Profils sein, z. B. in einer CTAS-Anweisung. Beispiel:

CREATE TABLE … AS SELECT …

Wiederverwendung des Abfrageergebnisses

Eine Abfrage, die das Ergebnis einer vorherigen Abfrage wiederverwendet.

Metadatenbasiertes Ergebnis

Eine Abfrage, deren Ergebnis nur auf Verarbeitung von Metadaten basiert, ohne auf Daten zuzugreifen. Diese Abfragen werden nicht von einem virtuellen Warehouse verarbeitet. Beispiel:

SELECT COUNT(*) FROM …

SELECT CURRENT_DATABASE()

Verschiedene Operatoren

Result

Gibt das Abfrageergebnis zurück. Attribute:

  • List of expressions – Ausdrücke, die generiert wurden.

Typische, von Query Profile identifizierte Abfrageprobleme

In diesem Abschnitt werden einige Probleme beschrieben, die Sie mithilfe von Query Profile identifizieren und beheben können.

„Explodierende“ Joins

Einer der häufigsten Fehler, die SQL-Benutzer machen, besteht darin, Tabellen zu verknüpfen, ohne eine Join-Bedingung anzugeben (was zu einem „Kartesischen Produkt“ führt), oder eine Bedingung bereitzustellen, bei der Datensätze einer Tabelle mit mehreren Datensätzen einer anderen Tabelle übereinstimmen. Für solche Abfragen produziert der Operator Join signifikant (oft um Größenordnungen) mehr Tupel, als er verbraucht.

Dies kann beobachtet werden, indem die Anzahl der Datensätze betrachtet wird, die von einem Join-Operator erzeugt wurden. Dies spiegelt sich normalerweise auch in Join-Operatoren wider, die viel Zeit in Anspruch nehmen.

Das folgende Beispiel zeigt eine Eingabe von Hunderten von Datensätzen, aber eine Ausgabe von Hunderttausenden.

SELECT tt1.c1, tt1.c2
FROM tt1
JOIN tt2 ON tt1.c1 = tt2.c1
 AND tt1.c2 = tt2.c2;
../_images/ui-profile-issues-exploding-joins.png

UNION ohne ALL

In SQL können zwei Datasets mit UNION- oder UNION ALL-Konstrukten kombiniert werden. Der Unterschied zwischen beiden besteht darin, dass mit UNION ALL die Eingaben einfach verkettet werden, während UNION dasselbe tut, aber auch eine doppelte Löschung durchführt.

Ein häufiger Fehler ist die Verwendung von UNION, wenn die UNION ALL-Semantik ausreicht. Diese Abfragen werden in Query Profile als UnionAll-Operator mit einem zusätzlichen Aggregate-Operator darüber angezeigt (der eine doppelte Löschung vornimmt).

Abfragen, die zu groß für den Arbeitsspeicher sind

Bei einigen Operationen (z. B. doppelte Löschung bei einem großen Dataset) reicht die für die Server zur Ausführung der Operation zur Verfügung stehende Speicherkapazität möglicherweise nicht aus, um Zwischenergebnisse zu speichern. Als Ergebnis beginnt das Abfrageverarbeitungsmodul, die Daten auf die lokale Festplatte zu übertragen. Wenn der lokale Speicherplatz nicht ausreicht, werden die Überlaufdaten auf Remote-Festplatten gespeichert.

Dieser Überlauf kann sich erheblich auf die Abfrageleistung auswirken (insbesondere, wenn für den Überlauf ein Remote-Datenträger verwendet wird). Um die Auswirkungen zu reduzieren, empfehlen wir Folgendes:

  • Verwenden eines größeren Warehouse (effektives Erhöhen des verfügbaren Arbeitsspeichers bzw. des lokalen Festplattenspeichers für die Operation) und/oder

  • Verarbeiten der Daten in kleineren Batches.

Ineffizientes Verkürzen

Snowflake sammelt umfangreiche Statistiken zu Daten, sodass basierend auf den Abfragefiltern keine unnötigen Teile einer Tabelle gelesen werden. Um diesen Effekt zu erzielen, muss die Reihenfolge der Datenspeicherung mit den Abfragefilterattributen korreliert werden.

Die Effizienz des Verkürzungsprozesses kann durch Vergleichen der Statistiken Partitions scanned und Partitions total in den TableScan-Operatoren überwacht werden. Wenn ersterer Wert ein kleiner Bruchteil des letzteren Werts ist, dann ist das Verkürzen effizient. Wenn nicht, hatte das Verkürzen keine Wirkung.

Das Verkürzen kann natürlich nur für Abfragen hilfreich sein, bei denen tatsächlich eine erhebliche Datenmenge herausgefiltert wird. Wenn in den Verkürzungsstatistiken keine Datenreduktion angezeigt wird, über TableScan jedoch ein Filter-Operator steht, der eine Anzahl von Datensätzen herausfiltert, könnte dies darauf hindeuten, dass für diese Abfrage eine andere Organisation der Daten von Vorteil ist.

Weitere Informationen zum Verkürzen finden Sie unter Grundlegendes zu Tabellenstrukturen in Snowflake.