カテゴリ:

集計関数 (類似度推定)、 ウィンドウ関数

MINHASH

入力行に k 個の異なるハッシュ関数を適用し、各ハッシュ関数の最小値を保持することにより構築されたサイズ k の配列を含む MinHash 状態を返します。この MinHash 状態を APPROXIMATE_SIMILARITY 関数に入力して、1つ以上の他の MinHash 状態との類似性を推定できます。

MinHash 状態の詳細については、 2つ以上のセットの類似性の推定 をご参照ください。

こちらもご参照ください:

MINHASH_COMBINE

構文

MINHASH( <k> , [ DISTINCT ] expr+ )

MINHASH( <k> , * )

使用上の注意

  • k は、作成するハッシュ関数の数を指定します。値が大きいほど、近似は良くなります。ただし、この値は APPROXIMATE_SIMILARITYを使用して類似性を推定するための計算時間に線形の影響を及ぼします。推奨値は100です。

    最大値は1024です。

  • DISTINCT を引数として含めることができますが、効果はありません。

USE SCHEMA snowflake_sample_data.tpch_sf1;

SELECT MINHASH(5, *) FROM orders;

+----------------------+
| MINHASH(5, *)        |
|----------------------|
| {                    |
|   "state": [         |
|     78678383574307,  |
|     586952033158539, |
|     525995912623966, |
|     508991839383217, |
|     492677003405678  |
|   ],                 |
|   "type": "minhash", |
|   "version": 1       |
| }                    |
+----------------------+

3つの関連する関数 MINHASHMINHASH_COMBINEAPPROXIMATE_SIMILARITY を示す、より広範な例です。この例では、3つのテーブル(ta、tb、tc)を作成します。そのうちの2つ(ta、tb)は類似しており、そのうちの2つ(ta、tc)は完全に異なります。

値が含まれるテーブルを作成および生成します。

CREATE TABLE ta (i INTEGER);
CREATE TABLE tb (i INTEGER);
CREATE TABLE tc (i INTEGER);

-- Insert values into the 3 tables.
INSERT INTO ta (i) VALUES (1), (2), (3), (4), (5), (6), (7), (8), (9), (10);
-- Almost the same as the preceding values.
INSERT INTO tb (i) VALUES (1), (2), (3), (4), (5), (6), (7), (8), (9), (11);
-- Different values and different number of values.
INSERT INTO tc (i) VALUES (-1), (-20), (-300), (-4000);

データの初期セットのMinHash情報を計算します。

CREATE TABLE minhash_a_1 (mh) AS SELECT MINHASH(100, i) FROM ta;
CREATE TABLE minhash_b (mh) AS SELECT MINHASH(100, i) FROM tb;
CREATE TABLE minhash_c (mh) AS SELECT MINHASH(100, i) FROM tc;

テーブルのいずれかにデータを追加します。

INSERT INTO ta (i) VALUES (12);

MINHASH_COMBINE 関数のデモ:

-- Record minhash information about only the new rows:
CREATE TABLE minhash_a_2 (mh) AS SELECT MINHASH(100, i) FROM ta WHERE i > 10;

-- Now combine all the minhash info for the old and new rows in table ta.
CREATE TABLE minhash_a (mh) AS
  SELECT MINHASH_COMBINE(mh) FROM
    (
      (SELECT mh FROM minhash_a_1)
      UNION ALL
      (SELECT mh FROM minhash_a_2)
    );

このクエリは、2つの類似したテーブル(ta、tb)のおおよその類似性を示しています。

SELECT APPROXIMATE_SIMILARITY (mh) FROM
  (
    (SELECT mh FROM minhash_a)
    UNION ALL
    (SELECT mh FROM minhash_b)
  );
+-----------------------------+
| APPROXIMATE_SIMILARITY (MH) |
|-----------------------------|
|                        0.75 |
+-----------------------------+

このクエリは、2つの非常に異なるテーブル(ta、tc)のおおよその類似性を示しています。

SELECT APPROXIMATE_SIMILARITY (mh) FROM
  (
    (SELECT mh FROM minhash_a)
    UNION ALL
    (SELECT mh FROM minhash_c)
  );
+-----------------------------+
| APPROXIMATE_SIMILARITY (MH) |
|-----------------------------|
|                           0 |
+-----------------------------+