- Catégories :
Fonctions d’agrégation (estimation de la fréquence), Fonctions de la fenêtre
APPROX_TOP_K_ESTIMATE¶
Renvoie les valeurs approximatives les plus fréquentes et leur fréquence estimée pour l’état de Space-Saving. (Pour plus d’informations sur le résumé de Space-Saving, voir Estimation des valeurs fréquentes.)
Un état Space-Saving généré par APPROX_TOP_K_ACCUMULATE et APPROX_TOP_K_COMBINE peut être utilisé pour calculer une estimation de cardinalité à l’aide de la fonction APPROX_TOP_K_ESTIMATE.
Ainsi, APPROX_TOP_K_ESTIMATE(APPROX_TOP_K_ACCUMULATE(…)) équivaut à APPROX_TOP_K(…).
- Voir aussi :
APPROX_TOP_K , APPROX_TOP_K_ACCUMULATE , APPROX_TOP_K_COMBINE
Syntaxe¶
APPROX_TOP_K_ESTIMATE( <state> [ , <k> ] )
Arguments¶
state
Expression contenant des informations d’état générées par un appel à APPROX_TOP_K_ACCUMULATE ou APPROX_TOP_K_COMBINE.
k
Le nombre de valeurs dont le nombre souhaité doit être approximativement estimé. Par exemple, si vous voulez voir les 10 valeurs les plus courantes, définissez
k
sur 10.Si
k
est omis, la valeur par défaut est1
.La valeur maximale est
100000
(100 000). La valeur est automatiquement réduite si les éléments ne peuvent pas être contenus dans la sortie.
Renvoie¶
Renvoie une valeur de type ARRAY
.
Exemples¶
Cet exemple montre comment utiliser les trois fonctions associées APPROX_TOP_K_ACCUMULATE
, APPROX_TOP_K_ESTIMATE
et APPROX_TOP_K_COMBINE
.
Note
Cet exemple utilise plus de compteurs que de valeurs de données distinctes afin d’obtenir des résultats cohérents. Dans les applications réelles, le nombre de valeurs distinctes étant généralement plus grand que le nombre de compteurs, les approximations peuvent varier.
Cet exemple génère un tableau de 8 lignes ayant des valeurs de 1 à 8, et un deuxième tableau de 8 lignes ayant des valeurs de 5 à 12. Ainsi, les valeurs les plus fréquentes dans l’union des deux tables sont les valeurs 5-8, où chacune des valeurs a un compte de 2.
Créez une table et des données simples :
-- Create a sequence to use to generate values for the table. CREATE OR REPLACE SEQUENCE seq91; CREATE OR REPLACE TABLE sequence_demo (c1 INTEGER DEFAULT seq91.nextval, dummy SMALLINT); INSERT INTO sequence_demo (dummy) VALUES (0); -- Double the number of rows a few times, until there are 8 rows: INSERT INTO sequence_demo (dummy) SELECT dummy FROM sequence_demo; INSERT INTO sequence_demo (dummy) SELECT dummy FROM sequence_demo; INSERT INTO sequence_demo (dummy) SELECT dummy FROM sequence_demo;Créez une table qui contient « l’état » qui représente les informations Top K approximatives actuelles pour la table nommée sequence_demo :
CREATE OR REPLACE TABLE resultstate1 AS ( SELECT approx_top_k_accumulate(c1, 50) AS rs1 FROM sequence_demo);Créez maintenant une deuxième table et ajoutez des données. (Dans une situation plus réaliste, l’utilisateur aurait pu charger plus de données dans la première table et les diviser en ensembles ne se chevauchant pas en fonction de l’heure à laquelle les données ont été chargées.)
CREATE OR REPLACE TABLE test_table2 (c1 INTEGER); -- Insert data. INSERT INTO test_table2 (c1) SELECT c1 + 4 FROM sequence_demo;Obtenez les informations « d’état » pour les nouvelles données uniquement.
CREATE OR REPLACE TABLE resultstate2 AS (SELECT approx_top_k_accumulate(c1, 50) AS rs1 FROM test_table2);Combiner les informations « d’état » pour les deux lots de lignes :
CREATE OR REPLACE TABLE combined_resultstate (c1) AS SELECT approx_top_k_combine(rs1) AS apc1 FROM ( SELECT rs1 FROM resultstate1 UNION ALL SELECT rs1 FROM resultstate2 ) ;Obtenez la valeur Top K approximative de l’ensemble des rangées combinées :
SELECT approx_top_k_estimate(c1, 4) FROM combined_resultstate;Sortie :
+------------------------------+ | APPROX_TOP_K_ESTIMATE(C1, 4) | |------------------------------| | [ | | [ | | 5, | | 2 | | ], | | [ | | 6, | | 2 | | ], | | [ | | 7, | | 2 | | ], | | [ | | 8, | | 2 | | ] | | ] | +------------------------------+