- Catégories :
Fonctions d’agrégation (estimation de la similarité), fonctions de fenêtre (estimation de la similarité)
MINHASH¶
Renvoie un état MinHash contenant un tableau de taille k construit en appliquant un nombre k de fonctions de hachage différentes aux lignes d’entrée et en maintenant chaque fonction de hachage au seuil minimum. Cet état MinHash peut ensuite être entré dans la fonction APPROXIMATE_SIMILARITY pour estimer la similarité avec un ou plusieurs autres états MinHash.
Pour plus d’informations sur les états MinHash, voir Estimation de la similarité de deux ensembles ou plus.
- Voir aussi :
Syntaxe¶
Fonction d’agrégation
Fonction de fenêtre
Pour plus d’informations sur la clause OVER, consultez Syntaxe et utilisation des fonctions de fenêtre.
Arguments¶
kNombre de fonctions de hachage à créer. Plus la valeur est grande, meilleure est l’approximation ; Cependant, cette valeur a un impact linéaire sur le temps de calcul pour l’estimation de la similarité à l’aide de APPROXIMATE_SIMILARITY. La valeur suggérée est 100. La valeur maximale est 1 024.
exprUne ou plusieurs expressions (généralement des noms de colonnes) qui déterminent les valeurs à hacher.
*Hachez toutes les colonnes dans les lignes d’entrée.
Notes sur l’utilisation¶
Cette fonction peut être utilisée comme fonction d’agrégation ou comme fonction de fenêtre.
DISTINCT peut être inclus comme argument, mais n’a aucun effet.
Exemples¶
Here is a more extensive example, showing the three related functions
MINHASH, MINHASH_COMBINE and APPROXIMATE_SIMILARITY. This
example creates 3 tables (ta, tb, and tc), two of which (ta and tb) are
similar, and two of which (ta and tc) are completely dissimilar.
Créer et remplir des tables avec des valeurs :
Calculer les informations minhash pour l’ensemble initial de données :
Ajouter plus de données à l’une des tables :
Demonstrate the MINHASH_COMBINE function:
This query shows the approximate similarity of the two similar tables
(ta and tb):
This query shows the approximate similarity of the two very different tables
(ta and tc):