- Catégories :
Fonctions d’agrégation (estimation de la similarité), fonctions de fenêtre (estimation de la similarité)
MINHASH_COMBINE¶
Combine les états d’entrée MinHash en un seul état de sortie MinHash. Cet état Minhash peut ensuite être entré dans la fonction APPROXIMATE_SIMILARITY pour estimer la similarité avec les autres états MinHash.
Cela permet des cas d’utilisation dans lesquels MINHASH est exécuté sur des ensembles de lignes horizontaux de la même table, générant un état MinHash pour chaque ensemble de lignes. Ces états peuvent ensuite être combinés à l’aide de MINHASH_COMBINE, produisant le même état de sortie qu’une seule exécution de MINHASH sur la table entière.
Pour plus d’informations sur les états MinHash, voir Estimation de la similarité de deux ensembles ou plus.
- Voir aussi :
Syntaxe¶
Fonction d’agrégation
Fonction de fenêtre
Pour plus d’informations sur la clause OVER, voir Syntaxe et utilisation des fonctions de fenêtre.
Arguments¶
stateExpression contenant des informations d’état MinHash générées par un appel à MINHASH. Les statuts MinHash d’entrée doivent avoir des tableaux de même longueur.
Notes sur l’utilisation¶
Cette fonction peut être utilisée comme fonction d’agrégation ou comme fonction de fenêtre.
DISTINCT peut être inclus comme argument, mais n’a aucun effet.
Exemples¶
Here is a more extensive example, showing the three related functions
MINHASH, MINHASH_COMBINE and APPROXIMATE_SIMILARITY. This
example creates 3 tables (ta, tb, and tc), two of which (ta and tb) are
similar, and two of which (ta and tc) are completely dissimilar.
Créer et remplir des tables avec des valeurs :
Calculer les informations minhash pour l’ensemble initial de données :
Ajouter plus de données à l’une des tables :
Demonstrate the MINHASH_COMBINE function:
This query shows the approximate similarity of the two similar tables
(ta and tb):
This query shows the approximate similarity of the two very different tables
(ta and tc):