- カテゴリ:
集計関数 (Similarity Estimation) , ウィンドウ関数の構文と使用法
APPROXIMATE_SIMILARITY¶
MinHash 状態に基づいて、入力の類似度(Jaccardインデックス)の推定値を返します。 MinHash 状態の詳細については、 2つ以上のセットの類似性の推定 をご参照ください。
- エイリアス:
- こちらもご参照ください。
構文¶
引数¶
expr式は、 MINHASH 関数の呼び出しによって返される1つ以上の MinHash 状態でなければなりません。つまり、式は
MinHash状態情報である必要があり、おおよその類似性が必要な列または式ではありません。(以下の例はこれを明確にするのに役立ちます)MinHash 状態の詳細については、 2つ以上のセットの類似性の推定 をご参照ください。
戻り値¶
0.0~1.0(この値を含む)の間の浮動小数点数。1.0はセットが同一であることを示し、0.0はセットにオーバーラップがないことを示します。
使用上の注意¶
DISTINCTを引数として含めることができますが、効果はありません。入力 MinHash 状態には、等しい長さの MinHash 配列が必要です。
入力 MinHash 状態の配列の長さは、近似値の品質の指標です。
関数 MINHASH で使用され る
kの値が大きいほど、近似値は良くなります。ただし、この値は、類似性を推定するための計算時間に線形の影響を及ぼします。
例¶
Here is a more extensive example, showing the three related functions
MINHASH, MINHASH_COMBINE and APPROXIMATE_SIMILARITY. This
example creates 3 tables (ta, tb, and tc), two of which (ta and tb) are
similar, and two of which (ta and tc) are completely dissimilar.
値が含まれるテーブルを作成および生成します。
データの初期セットのMinHash情報を計算します。
テーブルのいずれかにデータを追加します。
Demonstrate the MINHASH_COMBINE function:
This query shows the approximate similarity of the two similar tables
(ta and tb):
This query shows the approximate similarity of the two very different tables
(ta and tc):