Aggregatfunktionen¶

Aggregatfunktionen arbeiten mit Werten über Zeilen hinweg, um mathematische Berechnungen wie Summe, Durchschnitt, Zählung, Minimum-/Maxim-/Durchschnittswert, Standardabweichung und Schätzung sowie andere nicht mathematische Operationen durchzuführen.

Eine Aggregatfunktion nimmt mehrere Zeilen (tatsächlich keine, eine oder mehrere Zeilen) als Eingabe auf und erzeugt eine einzelne Ausgabe. Im Gegensatz dazu benötigen Skalarfunktionen eine Zeile als Eingabe und erzeugen eine Zeile (einen Wert) als Ausgabe.

Eine Aggregatfunktion gibt immer genau eine Zeile zurück, auch wenn die Eingabe null Zeilen enthält. Enthält die Eingabe null Zeilen, ist die Ausgabe NULL. Eine Aggregatfunktion könnte jedoch 0, eine leere Zeichenfolge oder einen anderen Wert zurückgeben, wenn Nullzeilen übergeben werden.

Liste der Funktionen (nach Unterkategorie)¶


Funktionsname	Anmerkungen
Allgemeine Aggregation
ANY_VALUE
AVG
CORR
COUNT
COUNT_IF
COVAR_POP
COVAR_SAMP
LISTAGG
MAX
MAX_BY
MEDIAN
MIN
MIN_BY
MODE
PERCENTILE_CONT	Verwendet eine andere Syntax als die anderen Aggregatfunktionen.
PERCENTILE_DISC	Verwendet eine andere Syntax als die anderen Aggregatfunktionen.
STDDEV, STDDEV_SAMP	STDDEV und STDDEV_SAMP sind Aliasse.
STDDEV_POP
SUM
VAR_POP
VAR_SAMP
VARIANCE_POP	Alias für VAR_POP.
VARIANCE , VARIANCE_SAMP	Alias für VAR_SAMP.
Bitweise Aggregation
BITAND_AGG
BITOR_AGG
BITXOR_AGG
Boolesche Aggregation
BOOLAND_AGG
BOOLOR_AGG
BOOLXOR_AGG
Hash
HASH_AGG
Aggregation semistrukturierter Daten
ARRAY_AGG
OBJECT_AGG
Lineare Regression
REGR_AVGX
REGR_AVGY
REGR_COUNT
REGR_INTERCEPT
REGR_R2
REGR_SLOPE
REGR_SXX
REGR_SXY
REGR_SYY
Statistik und Wahrscheinlichkeit
KURTOSIS
SKEW
Zählen diskreter Werte
ARRAY_UNION_AGG
ARRAY_UNIQUE_AGG
BITMAP_BIT_POSITION
BITMAP_BUCKET_NUMBER
BITMAP_COUNT
BITMAP_CONSTRUCT_AGG
BITMAP_OR_AGG
Kardinalitätsschätzung . (mit HyperLogLog)
APPROX_COUNT_DISTINCT	Alias für HLL.
DATASKETCHES_HLL
DATASKETCHES_HLL_ACCUMULATE
DATASKETCHES_HLL_COMBINE
DATASKETCHES_HLL_ESTIMATE	Keine Aggregationsfunktion; verwendet skalare Eingabe von DATASKETCHES_HLL_ACCUMULATE oder DATASKETCHES_HLL_COMBINE.
HLL
HLL_ACCUMULATE
HLL_COMBINE
HLL_ESTIMATE	Keine Aggregatfunktion; verwendet skalare Eingabe von HLL_ACCUMULATE oder HLL_COMBINE.
HLL_EXPORT
HLL_IMPORT
Ähnlichkeitsschätzung . (mit MinHash)
APPROXIMATE_JACCARD_INDEX	Alias für APPROXIMATE_SIMILARITY.
APPROXIMATE_SIMILARITY
MINHASH
MINHASH_COMBINE
Häufigkeitsschätzung . (mit Space-Saving)
APPROX_TOP_K
APPROX_TOP_K_ACCUMULATE
APPROX_TOP_K_COMBINE
APPROX_TOP_K_ESTIMATE	Keine Aggregatfunktion; verwendet skalare Eingabe von APPROX_TOP_K_ACCUMULATE oder APPROX_TOP_K_COMBINE.
Perzentilschätzung . (mit t-Digest)
APPROX_PERCENTILE
APPROX_PERCENTILE_ACCUMULATE
APPROX_PERCENTILE_COMBINE
APPROX_PERCENTILE_ESTIMATE	Keine Aggregatfunktion; verwendet skalare Eingabe von APPROX_PERCENTILE_ACCUMULATE oder APPROX_PERCENTILE_COMBINE.
Aggregations-Dienstprogramme
GROUPING	Keine Aggregatfunktion, kann jedoch in Verbindung mit Aggregatfunktionen verwendet werden, um die Aggregationsebene für eine Zeile zu bestimmen, die von einer GROUP BY-Abfrage erstellt wird.
GROUPING_ID	Alias für GROUPING.
AI Functions
AI_AGG
AI_SUMMARIZE_AGG
Vektoraggregation
VECTOR_AVG
VECTOR_MAX
VECTOR_MIN
VECTOR_SUM
Semantische Ansichten
AGG

Einführungsbeispiel¶

Das folgende Beispiel veranschaulicht den Unterschied zwischen einer Aggregatfunktion (AVG) und einer Skalarfunktion (COS) Die Skalarfunktion gibt eine Ausgabezeile für jede Eingabezeile zurück, während die Aggregatfunktion eine Ausgabezeile für mehrere Eingabezeilen zurückgibt:

Erstellen Sie eine Tabelle, und füllen Sie sie mit Werten auf:

CREATE TABLE simple (x INTEGER, y INTEGER);
INSERT INTO simple (x, y) VALUES
    (10, 20),
    (20, 44),
    (30, 70);

Abfragen der Tabelle:

SELECT x, y 
    FROM simple
    ORDER BY x,y;

+----+----+
|  X |  Y |
|----+----|
| 10 | 20 |
| 20 | 44 |
| 30 | 70 |
+----+----+

Die Skalarfunktion gibt für jede Eingabezeile eine Ausgabezeile zurück.

SELECT COS(x)
    FROM simple
    ORDER BY x;

+---------------+
|        COS(X) |
|---------------|
| -0.8390715291 |
|  0.4080820618 |
|  0.1542514499 |
+---------------+

Die Aggregatfunktion gibt eine Ausgabezeile für mehrere Eingabezeilen zurück:

SELECT SUM(x)
    FROM simple;

+--------+
| SUM(X) |
|--------|
|     60 |
+--------+

Aggregatfunktionen und NULL-Werte¶

Einige Aggregatfunktionen ignorieren NULL-Werte. Beispielsweise berechnet AVG den Durchschnitt der Werte 1, 5 und NULL mit dem Ergebnis 3, basierend auf der folgenden Formel:

(1 + 5) / 2 = 3

Sowohl im Zähler als auch im Nenner werden nur die beiden Nicht-NULL-Werte verwendet.

Wenn alle an die Aggregatfunktion übergebenen Werte NULL sind, gibt die Aggregatfunktion NULL zurück.

Einige Aggregatfunktionen können mehr als einer Spalte übergeben werden. Beispiel:

SELECT COUNT(col1, col2) FROM table1;

In diesen Fällen ignoriert die Aggregatfunktion eine Zeile, wenn eine einzelne Spalte NULL ist.

In der folgenden Abfrage gibt COUNT beispielsweise 1 zurück, nicht 4, da drei der vier Zeilen mindestens einen NULL-Wert in den ausgewählten Spalten enthalten:

Erstellen Sie eine Tabelle, und füllen Sie sie mit Werten auf:

CREATE OR REPLACE TABLE test_null_aggregate_functions (x INT, y INT);
INSERT INTO test_null_aggregate_functions (x, y) VALUES
  (1, 2),         -- No NULLs.
  (3, NULL),      -- One but not all columns are NULL.
  (NULL, 6),      -- One but not all columns are NULL.
  (NULL, NULL);   -- All columns are NULL.

Abfragen der Tabelle:

SELECT COUNT(x, y) FROM test_null_aggregate_functions;

+-------------+
| COUNT(X, Y) |
|-------------|
|           1 |
+-------------+

Wenn SUM mit einem Ausdruck aufgerufen wird, der auf zwei oder mehr Spalten verweist, und wenn eine oder mehrere dieser Spalten NULL sind, wird der Ausdruck zu NULL ausgewertet, und die Zeile wird ignoriert:

SELECT SUM(x + y) FROM test_null_aggregate_functions;

+------------+
| SUM(X + Y) |
|------------|
|          3 |
+------------+

Dieses Verhalten unterscheidet sich vom Verhalten von GROUP BY, bei dem Zeilen nicht gelöscht werden, wenn einige Spalten NULL sind:

SELECT x AS X_COL, y AS Y_COL 
  FROM test_null_aggregate_functions 
  GROUP BY x, y;

+-------+-------+
| X_COL | Y_COL |
|-------+-------|
|     1 |     2 |
|     3 |  NULL |
|  NULL |     6 |
|  NULL |  NULL |
+-------+-------+