APPROXIMATE_JACCARD_INDEX¶
MinHash 상태를 기반으로 입력값의 유사성(Jaccard 인덱스) 추정치를 반환합니다. Jaccard 인덱스 및 관련 함수 MINHASH 에 대한 자세한 내용은 2개 이상 세트의 유사성 추정하기 를 참조하십시오.
구문¶
APPROXIMATE_JACCARD_INDEX( [ DISTINCT ] <expr> [ , ... ] )
APPROXIMATE_JACCARD_INDEX(*)
인자¶
expr
식은 MINHASH 함수 호출에 의해 반환된 하나 이상의 MinHash 상태여야 합니다. 즉, 식은 대략적인 유사성이 필요한 열 또는 식이 아니라
MinHash
상태 정보여야 합니다. (아래의 예는 이를 명확히 하는 데 도움이 됩니다.)MinHash 상태에 대한 자세한 내용은 2개 이상 세트의 유사성 추정하기 를 참조하십시오.
반환¶
0.0에서 1.0(포함) 사이의 부동 소수점 숫자입니다. 여기서 1.0은 세트가 동일함을 나타내고 0.0은 세트가 겹치지 않음을 나타냅니다.
사용법 노트¶
DISTINCT
는 인자로 포함될 수 있지만, 효과는 없습니다.입력 MinHash 상태에는 길이가 동일한 MinHash 배열이 있어야 합니다.
입력 MinHash 상태의 배열 길이는 근삿값 품질의 지표입니다.
MINHASH 함수에 사용된
k
값이 클수록 근삿값이 더 좋습니다. 그러나 이 값은 유사성 추정을 위한 계산 시간에 선형 영향을 미칩니다.
예¶
USE SCHEMA snowflake_sample_data.tpch_sf1;
SELECT APPROXIMATE_JACCARD_INDEX(mh) FROM
(
(SELECT MINHASH(100, C5) mh FROM orders WHERE c2 <= 50000)
UNION
(SELECT MINHASH(100, C5) mh FROM orders WHERE C2 > 50000)
);
+-------------------------------+
| APPROXIMATE_JACCARD_INDEX(MH) |
|-------------------------------|
| 0.97 |
+-------------------------------+