- Kategorien:
Aggregatfunktionen (Similarity Estimation) , Syntax und Verwendung von Fensterfunktionen
APPROXIMATE_SIMILARITY¶
Gibt eine Schätzung der Ähnlichkeit (Jaccard-Index) von Eingaben basierend auf deren MinHash-Status zurück. Weitere Informationen zu MinHash-Status finden Sie unter Schätzung der Ähnlichkeit von zwei oder mehr Sets.
- Aliasse:
- Siehe auch:
Syntax¶
Argumente¶
exprDie Ausdrücke sollten aus einem oder mehreren MinHash-Status bestehen, die bei Aufrufen der Funktion MINHASH zurückgegeben werden. Mit anderen Worten müssen die Ausdrücke
MinHash-Statusinformationen sein und nicht die Spalte oder der Ausdruck, für den Sie die ungefähre Ähnlichkeit wünschen. (Das Beispiel unten macht dies klarer.)Weitere Informationen zu MinHash-Status finden Sie unter Schätzung der Ähnlichkeit von zwei oder mehr Sets.
Rückgabewerte¶
Eine Gleitkommazahl zwischen 0,0 und 1,0 (einschließlich), wobei 1,0 angibt, dass die Mengen identisch sind, und 0,0, dass die Mengen keine Überlappung aufweisen.
Nutzungshinweise¶
DISTINCTkann als Argument eingefügt werden, hat jedoch keine Auswirkungen.Die eingegebenen MinHash-Status müssen MinHash-Arrays gleicher Länge haben.
Die Arraylänge der eingegebenen MinHash-Status ist ein Indikator für die Näherungsqualität.
Je größer der Wert von
kin der Funktion MINHASH, desto besser die Näherung. Dieser Wert hat jedoch einen linearen Einfluss auf die Berechnungszeit für das Schätzen der Ähnlichkeit.
Beispiele¶
Here is a more extensive example, showing the three related functions
MINHASH, MINHASH_COMBINE and APPROXIMATE_SIMILARITY. This
example creates 3 tables (ta, tb, and tc), two of which (ta and tb) are
similar, and two of which (ta and tc) are completely dissimilar.
Erstellen Sie Tabellen, und füllen Sie diese mit Werten:
Berechnen Sie Minhash-Informationen für das anfängliche Dataset:
Fügen Sie weitere Daten zu einer der Tabellen hinzu:
Demonstrate the MINHASH_COMBINE function:
This query shows the approximate similarity of the two similar tables
(ta and tb):
This query shows the approximate similarity of the two very different tables
(ta and tc):