Categorias:: Funções de agregação (estimativa de cardinalidade), funções de janela (estimativa de cardinalidade)

HLL_ACCUMULATE¶

Retorna o estado de HyperLogLog no final da agregação.

Para obter mais informações sobre HyperLogLog, consulte Estimativa do número de valores distintos.

HLL descarta seu estado intermediário quando a estimativa final de cardinalidade é retornada. Em casos de uso avançado, como a estimativa de cardinalidade incremental durante o carregamento em massa, pode-se querer manter o estado intermediário. O estado intermediário pode posteriormente ser combinado (fundido) com outros estados intermediários, ou pode ser exportado para ferramentas externas.

Em contraste com HLL, HLL_ACCUMULATE não retorna uma estimativa de cardinalidade. Em vez disso, ele pula a etapa final de estimativa e retorna o próprio estado do algoritmo. O estado é um binário de, no máximo, 4096 bytes. Para obter mais informações, consulte Estimativa do número de valores distintos.

Consulte também:: HLL_COMBINE , HLL_ESTIMATE

Sintaxe¶

Função de agregação

HLL_ACCUMULATE( [ DISTINCT ] <expr> )

HLL_ACCUMULATE(*)

Função de janela

HLL_ACCUMULATE( [ DISTINCT ] <expr> ) OVER ( [ PARTITION BY <expr1> ] )

HLL_ACCUMULATE(*) OVER ( [ PARTITION BY <expr1> ] )

Para detalhes sobre a cláusula OVER, consulte Sintaxe e uso da função de janela.

Argumentos¶

expr: A expressão para a qual você deseja estimar a cardinalidade (número de valores distintos). Este é normalmente um nome de coluna, mas pode ser uma expressão mais geral.

Notas de uso¶

Esta função pode ser usada como uma função de agregação ou uma função de janela.
DISTINCT é suportado sintaticamente, mas não tem efeito.

Exemplos¶

Isto mostra um passo para estimar o número de códigos postais distintos na(s) província(s) do Canadá. Nesta etapa, calculamos o número aproximado de códigos postais distintos em Manitoba e armazenamos uma representação interna do “estado” do cálculo, que podemos posteriormente combinar com informações semelhantes para outras províncias:

CREATE TABLE temporary_hll_state_for_manitoba AS
  SELECT HLL_ACCUMULATE(postal_code) AS h_a_p_c
    FROM postal_data
    WHERE province = 'Manitoba';

Here is another example. This example shows how to use the three related functions HLL_ACCUMULATE, HLL_ESTIMATE, and HLL_COMBINE.

Criar uma tabela e dados simples:

CREATE OR REPLACE SEQUENCE seq92;
CREATE OR REPLACE TABLE sequence_demo (c1 INTEGER DEFAULT seq92.nextval, dummy SMALLINT);
INSERT INTO sequence_demo (dummy) VALUES (0);

INSERT INTO sequence_demo (dummy) SELECT dummy FROM sequence_demo;
INSERT INTO sequence_demo (dummy) SELECT dummy FROM sequence_demo;
INSERT INTO sequence_demo (dummy) SELECT dummy FROM sequence_demo;

Create a table that contains the «state» that represents the current approximate cardinality information for the table named sequence_demo:

CREATE OR REPLACE TABLE resultstate1 AS (
  SELECT HLL_ACCUMULATE(c1) AS rs1
    FROM sequence_demo);

Now create a second table and add data. (In a more realistic situation, the user could have loaded more data into the first table and divided the data into non-overlapping sets based on the time that the data was loaded.)

CREATE OR REPLACE TABLE test_table2 (c1 INTEGER);
INSERT INTO test_table2 (c1) SELECT c1 + 4 FROM sequence_demo;

Obtenha as informações de “estado” apenas para os novos dados.

CREATE OR REPLACE TABLE resultstate2 AS
  (SELECT HLL_ACCUMULATE(c1) AS rs1
     FROM test_table2);

Combine as informações de “estado” para os dois lotes de linhas:

CREATE OR REPLACE TABLE combined_resultstate (c1) AS
  SELECT HLL_COMBINE(rs1) AS apc1
    FROM (
      SELECT rs1 FROM resultstate1
      UNION ALL
      SELECT rs1 FROM resultstate2
    );

Obtenha a cardinalidade aproximada do conjunto de linhas combinadas:

SELECT HLL_ESTIMATE(c1)
  FROM combined_resultstate;

+------------------+
| HLL_ESTIMATE(C1) |
|------------------|
|               12 |
+------------------+