카테고리:: 집계 함수 (Cardinality Estimation) , 윈도우 함수

HLL¶

HyperLogLog를 사용해 입력값 고유 카디널리티의 근삿값을 반환합니다(즉, HLL(col1, col2, ... ) 는 COUNT(DISTINCT col1, col2, ... ) 의 근삿값을 반환함).

HyperLogLog에 대한 자세한 내용은 고유 값 개수 추정하기 를 참조하십시오.

별칭:: APPROX_COUNT_DISTINCT.
참고 항목:: HLL_ACCUMULATE , HLL_COMBINE , HLL_ESTIMATE

구문¶

집계 함수

HLL( [ DISTINCT ] <expr1> [ , ... ] )

HLL(*)

윈도우 함수

HLL( [ DISTINCT ] <expr1> [ , ... ] ) OVER ( [ PARTITION BY <expr2> ] )

HLL(*) OVER ( [ PARTITION BY <expr2> ] )

인자¶

expr1: 고유 값의 수를 파악하려는 식입니다.
expr2: 행을 파티션으로 그룹화하는 데 사용되는 선택적 식입니다.

반환¶

반환된 값의 데이터 타입은 INTEGER 입니다.

사용법 노트¶

DISTINCT 는 인자로 포함될 수 있지만, 효과는 없습니다.
NULL 값 및 집계 함수에 대한 자세한 내용은 집계 함수 및 NULL 값 을 참조하십시오.
이 함수가 윈도우 함수로 호출되는 경우에는 다음을 지원하지 않습니다.
- OVER 절 내의 ORDER BY 절.
- 명시적 윈도우 프레임.

예¶

이 예는 HLL 및 그 별칭 APPROX_COUNT_DISTINCT을 사용하는 방법을 보여줍니다. 이 예에서는 COUNT(DISTINCT i) 및 APPROX_COUNT_DISTINCT(i) 를 둘 다 호출하여, 두 함수의 결과가 항상 정확히 일치하는 것은 아님을 강조합니다.

APPROX_COUNT_DISTINCT()는 정확한 값이 아닌 근삿값을 반환하므로 다음 쿼리의 정확한 출력은 다를 수 있습니다.

SELECT COUNT(i), COUNT(DISTINCT i), APPROX_COUNT_DISTINCT(i), HLL(i)
  FROM sequence_demo;

+----------+-------------------+--------------------------+--------+
| COUNT(I) | COUNT(DISTINCT I) | APPROX_COUNT_DISTINCT(I) | HLL(I) |
|----------+-------------------+--------------------------+--------|
|     1024 |              1024 |                     1007 |   1007 |
+----------+-------------------+--------------------------+--------+