Kategorien:

Aggregatfunktionen (Kardinalitätsschätzung), Fensterfunktionen (Kardinalitätsschätzung)

HLL_ACCUMULATE

Gibt am Ende der Aggregation den HyperLogLog-Status zurück.

Weitere Informationen zu HyperLogLog finden Sie unter Schätzen der Anzahl diskreter Werte.

HLL verwirft seinen Zwischenstatus, sobald die endgültige Kardinalitätsschätzung zurückgegeben wird. In fortgeschrittenen Anwendungsfällen, beispielsweise der inkrementellen Kardinalitätsschätzung beim Massenladen, soll der Zwischenstatus möglicherweise beibehalten werden. Der Zwischenstatus kann später mit anderen Zwischenstatus kombiniert (zusammengeführt) oder in externe Tools exportiert werden.

Anders als HLL gibt HLL_ACCUMULATE keine Kardinalitätsschätzung zurück. Stattdessen wird der letzte Schätzungsschritt übersprungen und der algorithmische Status selbst zurückgegeben. Der Status ist ein Binärwert mit höchstens 4.096 Bytes. Weitere Informationen finden Sie unter Schätzen der Anzahl diskreter Werte.

Siehe auch:

HLL_COMBINE, HLL_ESTIMATE

Syntax

Aggregatfunktion

HLL_ACCUMULATE( [ DISTINCT ] <expr> )

HLL_ACCUMULATE(*)

Fensterfunktionen

HLL_ACCUMULATE( [ DISTINCT ] <expr> ) OVER ( [ PARTITION BY <expr1> ] )

HLL_ACCUMULATE(*) OVER ( [ PARTITION BY <expr1> ] )

Informationen zur OVER-Klausel finden Sie unter Syntax und Verwendung von Fensterfunktionen.

Argumente

expr

Der Ausdruck, für den Sie die Kardinalität (Anzahl verschiedener Werte) schätzen möchten. Dies ist normalerweise ein Spaltenname, kann jedoch ein allgemeinerer Ausdruck sein.

Nutzungshinweise

Beispiele

Dieses Beispiel veranschaulicht einen Schritt zur Schätzung der Anzahl verschiedener Postleitzahlen in kanadischen Provinzen. In diesem Schritt berechnen wir die approximierte Anzahl unterschiedlicher Postleitzahlen in Manitoba und speichern eine interne Darstellung des „Status“ der Berechnung, die wir später mit ähnlichen Informationen für andere Provinzen kombinieren können:

CREATE TABLE temporary_hll_state_for_manitoba AS
  SELECT HLL_ACCUMULATE(postal_code) AS h_a_p_c
    FROM postal_data
    WHERE province = 'Manitoba';

Here is another example. This example shows how to use the three related functions HLL_ACCUMULATE, HLL_ESTIMATE, and HLL_COMBINE.

Erstellen Sie eine einfache Tabelle und Daten:

CREATE OR REPLACE SEQUENCE seq92;
CREATE OR REPLACE TABLE sequence_demo (c1 INTEGER DEFAULT seq92.nextval, dummy SMALLINT);
INSERT INTO sequence_demo (dummy) VALUES (0);

INSERT INTO sequence_demo (dummy) SELECT dummy FROM sequence_demo;
INSERT INTO sequence_demo (dummy) SELECT dummy FROM sequence_demo;
INSERT INTO sequence_demo (dummy) SELECT dummy FROM sequence_demo;

Create a table that contains the „state“ that represents the current approximate cardinality information for the table named sequence_demo:

CREATE OR REPLACE TABLE resultstate1 AS (
  SELECT HLL_ACCUMULATE(c1) AS rs1
    FROM sequence_demo);

Now create a second table and add data. (In a more realistic situation, the user could have loaded more data into the first table and divided the data into non-overlapping sets based on the time that the data was loaded.)

CREATE OR REPLACE TABLE test_table2 (c1 INTEGER);
INSERT INTO test_table2 (c1) SELECT c1 + 4 FROM sequence_demo;

Rufen Sie die „Statusinformationen“ nur für die neuen Daten ab.

CREATE OR REPLACE TABLE resultstate2 AS
  (SELECT HLL_ACCUMULATE(c1) AS rs1
     FROM test_table2);

Kombinieren Sie die „Statusinformationen“ für die zwei Mengen von Zeilen:

CREATE OR REPLACE TABLE combined_resultstate (c1) AS
  SELECT HLL_COMBINE(rs1) AS apc1
    FROM (
      SELECT rs1 FROM resultstate1
      UNION ALL
      SELECT rs1 FROM resultstate2
    );

Ermitteln Sie die approximierte Kardinalität der kombinierten Zeilenmenge:

SELECT HLL_ESTIMATE(c1)
  FROM combined_resultstate;
+------------------+
| HLL_ESTIMATE(C1) |
|------------------|
|               12 |
+------------------+