MINHASH¶
入力行に k 個の異なるハッシュ関数を適用し、各ハッシュ関数の最小値を保持することにより構築された、サイズ k の配列を含む MinHash 状態を返します。この MinHash 状態を APPROXIMATE_SIMILARITY 関数に入力して、1つ以上の他の MinHash 状態との類似性を推定できます。
MinHash 状態の詳細については、 2つ以上のセットの類似性の推定 をご参照ください。
- こちらもご参照ください。
構文¶
集計関数
ウィンドウ関数
OVER句の詳細については、 ウィンドウ関数の構文と使用法 をご参照ください。
引数¶
k作成するハッシュ関数の数。値が大きいほど、近似は良くなります。ただし、この値は APPROXIMATE_SIMILARITYを使用して類似性を推定するための計算時間に線形の影響を及ぼします。推奨値は100です。最大値は1024です。
exprハッシュする値を決定する1つ以上の式(通常は列名)。
*入力行のすべての列をハッシュします。
使用上の注意¶
例¶
Here is a more extensive example, showing the three related functions
MINHASH, MINHASH_COMBINE and APPROXIMATE_SIMILARITY. This
example creates 3 tables (ta, tb, and tc), two of which (ta and tb) are
similar, and two of which (ta and tc) are completely dissimilar.
値が含まれるテーブルを作成および生成します。
データの初期セットのMinHash情報を計算します。
テーブルのいずれかにデータを追加します。
Demonstrate the MINHASH_COMBINE function:
This query shows the approximate similarity of the two similar tables
(ta and tb):
This query shows the approximate similarity of the two very different tables
(ta and tc):