- Categorias:
Funções de agregação (Similarity Estimation) , Sintaxe e uso da função de janela
APPROXIMATE_SIMILARITY¶
Retorna uma estimativa da similaridade (índice de Jaccard) das entradas com base em seus estados MinHash. Para obter mais informações sobre os estados MinHash, consulte Estimativa da similaridade de dois ou mais conjuntos.
- Aliases:
- Consulte também:
Sintaxe¶
Argumentos¶
exprA(s) expressão(ões) deve(m) ser um ou mais estados de MinHash retornados por chamadas para a função MINHASH. Em outras palavras, as expressões devem ser informações de estado de
MinHash, não a coluna ou expressão para a qual se deseja a similaridade aproximada. (O exemplo abaixo ajuda a esclarecer isso).Para obter mais informações sobre os estados MinHash, consulte Estimativa da similaridade de dois ou mais conjuntos.
Retornos¶
Um número de ponto flutuante entre 0,0 e 1,0 (inclusive), onde 1,0 indica que os conjuntos são idênticos, e 0,0 indica que os conjuntos não têm sobreposição.
Notas de uso¶
DISTINCTpode ser incluído como um argumento, mas não tem efeito.Os estados de entrada MinHash devem ter matrizes MinHash de comprimento igual.
O comprimento da matriz dos estados de entrada MinHash é um indicador da qualidade da aproximação.
Quanto maior o valor de
kusado na função MINHASH, melhor será a aproximação. Entretanto, este valor tem um impacto linear no tempo de cálculo para estimar a similaridade.
Exemplos¶
Here is a more extensive example, showing the three related functions
MINHASH, MINHASH_COMBINE and APPROXIMATE_SIMILARITY. This
example creates 3 tables (ta, tb, and tc), two of which (ta and tb) are
similar, and two of which (ta and tc) are completely dissimilar.
Criar e preencher tabelas com valores:
Calcular as informações de minhash para o conjunto inicial de dados:
Adicionar mais dados a uma das tabelas:
Demonstrate the MINHASH_COMBINE function:
This query shows the approximate similarity of the two similar tables
(ta and tb):
This query shows the approximate similarity of the two very different tables
(ta and tc):