카테고리:: 집계 함수 (Similarity Estimation) , 윈도우 함수

APPROXIMATE_JACCARD_INDEX¶

MinHash 상태를 기반으로 입력값의 유사성(Jaccard 인덱스) 추정치를 반환합니다. Jaccard 인덱스 및 관련 함수 MINHASH 에 대한 자세한 내용은 2개 이상 세트의 유사성 추정하기 를 참조하십시오.

APPROXIMATE_SIMILARITY 의 별칭

구문¶

APPROXIMATE_JACCARD_INDEX( [ DISTINCT ] <expr> [ , ... ] )

APPROXIMATE_JACCARD_INDEX(*)

인자¶

expr

식은 MINHASH 함수 호출에 의해 반환된 하나 이상의 MinHash 상태여야 합니다. 즉, 식은 대략적인 유사성이 필요한 열 또는 식이 아니라 MinHash 상태 정보여야 합니다. (아래의 예는 이를 명확히 하는 데 도움이 됩니다.)

MinHash 상태에 대한 자세한 내용은 2개 이상 세트의 유사성 추정하기 를 참조하십시오.

반환¶

0.0에서 1.0(포함) 사이의 부동 소수점 숫자입니다. 여기서 1.0은 세트가 동일함을 나타내고 0.0은 세트가 겹치지 않음을 나타냅니다.

사용법 노트¶

DISTINCT 는 인자로 포함될 수 있지만, 효과는 없습니다.
입력 MinHash 상태에는 길이가 동일한 MinHash 배열이 있어야 합니다.
입력 MinHash 상태의 배열 길이는 근삿값 품질의 지표입니다.

MINHASH 함수에 사용된 k 값이 클수록 근삿값이 더 좋습니다. 그러나 이 값은 유사성 추정을 위한 계산 시간에 선형 영향을 미칩니다.

예¶

USE SCHEMA snowflake_sample_data.tpch_sf1;

SELECT APPROXIMATE_JACCARD_INDEX(mh) FROM
    (
      (SELECT MINHASH(100, C5) mh FROM orders WHERE c2 <= 50000)
         UNION
      (SELECT MINHASH(100, C5) mh FROM orders WHERE C2 > 50000)
    );

+-------------------------------+
| APPROXIMATE_JACCARD_INDEX(MH) |
|-------------------------------|
|                          0.97 |
+-------------------------------+