Catégories :

Fonctions d’agrégation (estimation de la fréquence), Fonctions de la fenêtre

APPROX_TOP_K_COMBINE

Combine (fusionne) les états d’entrée en un seul état de sortie.

Cela permet des scénarios dans lesquels APPROX_TOP_K_ACCUMULATE est exécuté sur des partitions horizontales de la même table, générant un état d’algorithme pour chaque partition de la table. Ces états peuvent ensuite être combinés à l’aide de APPROX_TOP_K_COMBINE, produisant le même état de sortie qu’une seule exécution de APPROX_TOP_K_ACCUMULATE sur la table entière.

Voir aussi :

APPROX_TOP_K_ACCUMULATE , APPROX_TOP_K_ESTIMATE

Syntaxe

APPROX_TOP_K_COMBINE( <state> [ , <counters> ] )
Copy

Arguments

state

Expression contenant des informations d’état générées par un appel à APPROX_TOP_K_ACCUMULATE.

counters

Il s’agit du nombre maximal de valeurs distinctes pouvant être suivies simultanément pendant le processus d’estimation. Par exemple, si counters est défini sur 100000, l’algorithme suit 100 000 valeurs distinctes, en essayant de conserver les 100 000 valeurs les plus fréquentes.

Le nombre maximal de counters est 100000 (100 000).

Renvoie

Ceci renvoie des informations sur « l’état » du calcul « Top K ».

Ces informations d’état ne sont généralement pas utiles en elles-mêmes, mais elles peuvent être transmises à la fonction APPROX_TOP_K_ESTIMATE.

Notes sur l’utilisation

  • Si counters est défini, l’état de la sortie utilise le nombre de compteurs spécifié.

  • Si counters n’est pas défini, tous les états d’entrée doivent avoir le même nombre de compteurs.

Exemples

Cet exemple montre comment utiliser les trois fonctions associées APPROX_TOP_K_ACCUMULATE, APPROX_TOP_K_ESTIMATE et APPROX_TOP_K_COMBINE.

Note

Cet exemple utilise plus de compteurs que de valeurs de données distinctes afin d’obtenir des résultats cohérents. Dans les applications réelles, le nombre de valeurs distinctes étant généralement plus grand que le nombre de compteurs, les approximations peuvent varier.

Cet exemple génère un tableau de 8 lignes ayant des valeurs de 1 à 8, et un deuxième tableau de 8 lignes ayant des valeurs de 5 à 12. Ainsi, les valeurs les plus fréquentes dans l’union des deux tables sont les valeurs 5-8, où chacune des valeurs a un compte de 2.

Créez une table et des données simples :

-- Create a sequence to use to generate values for the table.
CREATE OR REPLACE SEQUENCE seq91;
CREATE OR REPLACE TABLE sequence_demo (c1 INTEGER DEFAULT seq91.nextval, dummy SMALLINT);
INSERT INTO sequence_demo (dummy) VALUES (0);

-- Double the number of rows a few times, until there are 8 rows:
INSERT INTO sequence_demo (dummy) SELECT dummy FROM sequence_demo;
INSERT INTO sequence_demo (dummy) SELECT dummy FROM sequence_demo;
INSERT INTO sequence_demo (dummy) SELECT dummy FROM sequence_demo;
Copy

Créez une table qui contient « l’état » qui représente les informations Top K approximatives actuelles pour la table nommée sequence_demo :

CREATE OR REPLACE TABLE resultstate1 AS (
     SELECT approx_top_k_accumulate(c1, 50) AS rs1
        FROM sequence_demo);
Copy

Créez maintenant une deuxième table et ajoutez des données. (Dans une situation plus réaliste, l’utilisateur aurait pu charger plus de données dans la première table et les diviser en ensembles ne se chevauchant pas en fonction de l’heure à laquelle les données ont été chargées.)

CREATE OR REPLACE TABLE test_table2 (c1 INTEGER);
-- Insert data.
INSERT INTO test_table2 (c1) SELECT c1 + 4 FROM sequence_demo;
Copy

Obtenez les informations « d’état » pour les nouvelles données uniquement.

CREATE OR REPLACE TABLE resultstate2 AS 
  (SELECT approx_top_k_accumulate(c1, 50) AS rs1 
     FROM test_table2);
Copy

Combiner les informations « d’état » pour les deux lots de lignes :

CREATE OR REPLACE TABLE combined_resultstate (c1) AS 
  SELECT approx_top_k_combine(rs1) AS apc1
    FROM (
        SELECT rs1 FROM resultstate1
        UNION ALL
        SELECT rs1 FROM resultstate2
      )
      ;
Copy

Obtenez la valeur Top K approximative de l’ensemble des rangées combinées :

SELECT approx_top_k_estimate(c1, 4) FROM combined_resultstate;
Copy

Sortie :

+------------------------------+
| APPROX_TOP_K_ESTIMATE(C1, 4) |
|------------------------------|
| [                            |
|   [                          |
|     5,                       |
|     2                        |
|   ],                         |
|   [                          |
|     6,                       |
|     2                        |
|   ],                         |
|   [                          |
|     7,                       |
|     2                        |
|   ],                         |
|   [                          |
|     8,                       |
|     2                        |
|   ]                          |
| ]                            |
+------------------------------+
Copy