Categorias:: Funções de agregação (estimativa de similaridade) , funções de janela (estimativa de similaridade)

MINHASH¶

Retorna um estado de MinHash contendo uma matriz de tamanho k construída pela aplicação de k número de diferentes funções de hash às linhas de entrada e mantendo o mínimo de cada função de hash. Este estado MinHash pode então ser introduzido na função APPROXIMATE_SIMILARITY para estimar a similaridade com um ou mais estados MinHash.

Para obter mais informações sobre os estados MinHash, consulte Estimativa da similaridade de dois ou mais conjuntos.

Consulte também:: MINHASH_COMBINE

Sintaxe¶

Função de agregação

MINHASH( <k> , [ DISTINCT ] expr+ )

MINHASH( <k> , * )

Função de janela

MINHASH( <k> , [ DISTINCT ] expr+ ) OVER ( [ PARTITION BY <expr1> ] )

MINHASH( <k> , * ) OVER ( [ PARTITION BY <expr1> ] )

Para detalhes sobre a cláusula OVER, consulte Sintaxe e uso da função de janela.

Argumentos¶

k: O número de funções de hash a serem criadas. Quanto maior o valor, melhor a aproximação; entretanto, este valor tem um impacto linear no tempo de cálculo para estimar a similaridade usando APPROXIMATE_SIMILARITY. O valor sugerido é 100. O valor máximo é 1024.
expr: Uma ou mais expressões (normalmente nomes de colunas) que determinam os valores para hash.
*: Hash de todas as colunas nas linhas de entrada.

Notas de uso¶

Esta função pode ser usada como uma função de agregação ou uma função de janela.
DISTINCT pode ser incluído como um argumento, mas não tem efeito.

Exemplos¶

USE SCHEMA snowflake_sample_data.tpch_sf1;

SELECT MINHASH(5, *) FROM orders;

+----------------------+
| MINHASH(5, *)        |
|----------------------|
| {                    |
|   "state": [         |
|     78678383574307,  |
|     586952033158539, |
|     525995912623966, |
|     508991839383217, |
|     492677003405678  |
|   ],                 |
|   "type": "minhash", |
|   "version": 1       |
| }                    |
+----------------------+

Here is a more extensive example, showing the three related functions MINHASH, MINHASH_COMBINE and APPROXIMATE_SIMILARITY. This example creates 3 tables (ta, tb, and tc), two of which (ta and tb) are similar, and two of which (ta and tc) are completely dissimilar.

Criar e preencher tabelas com valores:

CREATE TABLE ta (i INTEGER);
CREATE TABLE tb (i INTEGER);
CREATE TABLE tc (i INTEGER);

INSERT INTO ta (i) VALUES (1), (2), (3), (4), (5), (6), (7), (8), (9), (10);
INSERT INTO tb (i) VALUES (1), (2), (3), (4), (5), (6), (7), (8), (9), (11);
INSERT INTO tc (i) VALUES (-1), (-20), (-300), (-4000);

Calcular as informações de minhash para o conjunto inicial de dados:

CREATE TABLE minhash_a_1 (mh) AS SELECT MINHASH(100, i) FROM ta;
CREATE TABLE minhash_b (mh) AS SELECT MINHASH(100, i) FROM tb;
CREATE TABLE minhash_c (mh) AS SELECT MINHASH(100, i) FROM tc;

Adicionar mais dados a uma das tabelas:

INSERT INTO ta (i) VALUES (12);

Demonstrate the MINHASH_COMBINE function:

CREATE TABLE minhash_a_2 (mh) AS SELECT MINHASH(100, i) FROM ta WHERE i > 10;

CREATE TABLE minhash_a (mh) AS
  SELECT MINHASH_COMBINE(mh)
    FROM (
      (SELECT mh FROM minhash_a_1)
      UNION ALL
      (SELECT mh FROM minhash_a_2)
    );

This query shows the approximate similarity of the two similar tables (ta and tb):

SELECT APPROXIMATE_SIMILARITY(mh)
  FROM (
    (SELECT mh FROM minhash_a)
    UNION ALL
    (SELECT mh FROM minhash_b)
  );

+-----------------------------+
| APPROXIMATE_SIMILARITY (MH) |
|-----------------------------|
|                        0.75 |
+-----------------------------+

This query shows the approximate similarity of the two very different tables (ta and tc):

SELECT APPROXIMATE_SIMILARITY(mh)
  FROM (
    (SELECT mh FROM minhash_a)
    UNION ALL
    (SELECT mh FROM minhash_c)
  );

+-----------------------------+
| APPROXIMATE_SIMILARITY (MH) |
|-----------------------------|
|                           0 |
+-----------------------------+