- Kategorien:
Aggregatfunktionen (Ähnlichkeitsschätzung), Fensterfunktionen (Ähnlichkeitsschätzung)
MINHASH¶
Gibt einen MinHash-Status zurück, der ein Array der Größe k enthält, das durch Anwenden von k verschiedenen Hash-Funktionen auf die Eingabezeilen konstruiert wurde und das Minimum jeder Hash-Funktion behält. Dieser MinHash-Status kann dann in die Funktion APPROXIMATE_SIMILARITY eingegeben werden, um die Ähnlichkeit mit einem oder mehreren anderen MinHash-Status zu schätzen.
Weitere Informationen zu MinHash-Status finden Sie unter Schätzung der Ähnlichkeit von zwei oder mehr Sets.
- Siehe auch:
Syntax¶
Aggregatfunktion
Fensterfunktionen
Informationen zur OVER-Klausel finden Sie unter Syntax und Verwendung von Fensterfunktionen.
Argumente¶
kDie Anzahl der zu erstellenden Hashfunktionen. Je größer der Wert, desto besser die Näherung. Dieser Wert hat jedoch einen linearen Einfluss auf die Berechnungszeit für das Schätzen der Ähnlichkeit mit APPROXIMATE_SIMILARITY. Der empfohlene Wert beträgt 100. Der Maximalwert beträgt 1.024.
exprEin oder mehrere Ausdrücke (typischerweise Spaltennamen), die Grundlage für die zu berechnenden Hash-Werte bilden.
*Erstellt Hash-Werte für alle Spalten in den Eingabezeilen.
Nutzungshinweise¶
Diese Funktion kann als Aggregatfunktion oder Fensterfunktion verwendet werden.
DISTINCT kann als Argument eingefügt werden, hat jedoch keine Auswirkungen.
Beispiele¶
Here is a more extensive example, showing the three related functions
MINHASH, MINHASH_COMBINE and APPROXIMATE_SIMILARITY. This
example creates 3 tables (ta, tb, and tc), two of which (ta and tb) are
similar, and two of which (ta and tc) are completely dissimilar.
Erstellen Sie Tabellen, und füllen Sie diese mit Werten:
Berechnen Sie Minhash-Informationen für das anfängliche Dataset:
Fügen Sie weitere Daten zu einer der Tabellen hinzu:
Demonstrate the MINHASH_COMBINE function:
This query shows the approximate similarity of the two similar tables
(ta and tb):
This query shows the approximate similarity of the two very different tables
(ta and tc):