- Categorias:
Funções de agregação (estimativa de similaridade), funções de janela (estimativa de similaridade)
MINHASH_COMBINE¶
Combina estados de entrada de MinHash em um único estado de saída de MinHash. Este estado de minhash pode então ser introduzido na função APPROXIMATE_SIMILARITY para estimar a similaridade com outros estados MinHash.
Isto permite o uso de casos em que MINHASH é executado em conjuntos de linhas horizontais da mesma tabela, produzindo um estado MinHash para cada conjunto de linhas. Estes estados podem então ser combinados usando MINHASH_COMBINE, produzindo o mesmo estado de saída que uma única execução de MINHASH em toda a tabela.
Para obter mais informações sobre os estados MinHash, consulte Estimativa da similaridade de dois ou mais conjuntos.
- Consulte também:
Sintaxe¶
Função de agregação
Função de janela
Para obter detalhes sobre a cláusula OVER, consulte Sintaxe e uso da função de janela.
Argumentos¶
stateUma expressão que contém informações de estado MinHash geradas por uma chamada para MINHASH. Os estados MinHash de entrada devem ter matrizes de comprimento igual.
Notas de uso¶
Esta função pode ser usada como uma função de agregação ou uma função de janela.
DISTINCT pode ser incluído como um argumento, mas não tem efeito.
Exemplos¶
Here is a more extensive example, showing the three related functions
MINHASH, MINHASH_COMBINE and APPROXIMATE_SIMILARITY. This
example creates 3 tables (ta, tb, and tc), two of which (ta and tb) are
similar, and two of which (ta and tc) are completely dissimilar.
Criar e preencher tabelas com valores:
Calcular as informações de minhash para o conjunto inicial de dados:
Adicionar mais dados a uma das tabelas:
Demonstrate the MINHASH_COMBINE function:
This query shows the approximate similarity of the two similar tables
(ta and tb):
This query shows the approximate similarity of the two very different tables
(ta and tc):