집계 함수¶

집계 함수는 행 전체의 값에 대한 연산을 통해 합계, 평균, 계산, 최소값/최대값, 표준 편차, 추정과 같은 수학적 계산은 물론이고, 몇 가지 비수학적 연산도 수행합니다.

집계 함수는 여러 행(실제로는 0개, 1개 또는 그 이상의 행)을 입력값으로 받아 단일 출력값을 생성합니다. 반대로, 스칼라 함수는 하나의 행을 입력값으로 받아 하나의 행(하나의 값)을 출력값으로 생성합니다.

집계 함수는 입력값에 0개의 행이 포함되어 있을 때도 항상 정확히 하나의 행을 반환합니다. 일반적으로, 입력값에 0개의 행이 포함되는 경우 출력값은 NULL입니다. 하지만 집계 함수는개의 행을 전달할 때 0, 빈 문자열 또는 기타 값을 반환할 수 있습니다.

함수의 목록(하위 카테고리별)¶


함수 이름	참고
일반 집계
ANY_VALUE
AVG
CORR
COUNT
COUNT_IF
COVAR_POP
COVAR_SAMP
LISTAGG
MAX
MAX_BY
MEDIAN
MIN
MIN_BY
MODE
PERCENTILE_CONT	다른 집계 함수와 다른 구문을 사용합니다.
PERCENTILE_DISC	다른 집계 함수와 다른 구문을 사용합니다.
STDDEV, STDDEV_SAMP	STDDEV와 STDDEV_SAMP는 별칭입니다.
STDDEV_POP
SUM
VAR_POP
VAR_SAMP
VARIANCE_POP	VAR_POP 의 별칭입니다.
VARIANCE , VARIANCE_SAMP	VAR_SAMP 의 별칭입니다.
비트 집계
BITAND_AGG
BITOR_AGG
BITXOR_AGG
부울 집계
BOOLAND_AGG
BOOLOR_AGG
BOOLXOR_AGG
해시
HASH_AGG
반정형 데이터 집계
ARRAY_AGG
OBJECT_AGG
선형 회귀
REGR_AVGX
REGR_AVGY
REGR_COUNT
REGR_INTERCEPT
REGR_R2
REGR_SLOPE
REGR_SXX
REGR_SXY
REGR_SYY
통계 및 확률
KURTOSIS
SKEW
고유 값 계산
ARRAY_UNION_AGG
ARRAY_UNIQUE_AGG
BITMAP_BIT_POSITION
BITMAP_BUCKET_NUMBER
BITMAP_COUNT
BITMAP_CONSTRUCT_AGG
BITMAP_OR_AGG
카디널리티 추정 . (HyperLogLog 사용)
APPROX_COUNT_DISTINCT	HLL 의 별칭입니다.
DATASKETCHES_HLL
DATASKETCHES_HLL_ACCUMULATE
DATASKETCHES_HLL_COMBINE
DATASKETCHES_HLL_ESTIMATE	집계 함수가 아니며, DATASKETCHES_HLL_ACCUMULATE 또는 DATASKETCHES_HLL_COMBINE 의 스칼라 입력값을 사용합니다.
HLL
HLL_ACCUMULATE
HLL_COMBINE
HLL_ESTIMATE	집계 함수가 아니며, HLL_ACCUMULATE 또는 HLL_COMBINE 의 스칼라 입력값을 사용합니다.
HLL_EXPORT
HLL_IMPORT
유사성 추정 . (MinHash 사용)
APPROXIMATE_JACCARD_INDEX	APPROXIMATE_SIMILARITY 의 별칭입니다.
APPROXIMATE_SIMILARITY
MINHASH
MINHASH_COMBINE
빈도 추정 . (공간 절약 사용)
APPROX_TOP_K
APPROX_TOP_K_ACCUMULATE
APPROX_TOP_K_COMBINE
APPROX_TOP_K_ESTIMATE	집계 함수가 아니며, APPROX_TOP_K_ACCUMULATE 또는 APPROX_TOP_K_COMBINE 의 스칼라 입력값을 사용합니다.
백분위수 추정 . (t-Digest 사용)
APPROX_PERCENTILE
APPROX_PERCENTILE_ACCUMULATE
APPROX_PERCENTILE_COMBINE
APPROX_PERCENTILE_ESTIMATE	집계 함수가 아니며, APPROX_PERCENTILE_ACCUMULATE 또는 APPROX_PERCENTILE_COMBINE 의 스칼라 입력값을 사용합니다.
집계 유틸리티
GROUPING	집계 함수는 아니지만, GROUP BY 쿼리로 생성된 행의 집계 수준을 결정하기 위해 집계 함수와 함께 사용할 수 있습니다.
GROUPING_ID	GROUPING 의 별칭입니다.
AI 함수
AI_AGG
AI_SUMMARIZE_AGG
벡터 집계
VECTOR_AVG
VECTOR_MAX
VECTOR_MIN
VECTOR_SUM
의미 체계 뷰
AGG

소개 예¶

다음 예에서는 집계 함수(AVG)와 스칼라 함수(COS)의 차이점을 보여줍니다. 스칼라 함수는 각 입력 행에 대해 하나의 출력 행을 반환하는 반면, 집계 함수는 여러 입력 행에 대해 하나의 출력 행을 반환합니다.

다음과 같이 테이블을 만들고 값으로 채웁니다.

CREATE TABLE simple (x INTEGER, y INTEGER);
INSERT INTO simple (x, y) VALUES
    (10, 20),
    (20, 44),
    (30, 70);

테이블을 쿼리합니다.

SELECT x, y 
    FROM simple
    ORDER BY x,y;

+----+----+
|  X |  Y |
|----+----|
| 10 | 20 |
| 20 | 44 |
| 30 | 70 |
+----+----+

스칼라 함수는 각 입력 행에 대해 하나의 출력 행을 반환합니다.

SELECT COS(x)
    FROM simple
    ORDER BY x;

+---------------+
|        COS(X) |
|---------------|
| -0.8390715291 |
|  0.4080820618 |
|  0.1542514499 |
+---------------+

집계 함수는 여러 입력 행에 대해 하나의 출력 행을 반환합니다.

SELECT SUM(x)
    FROM simple;

+--------+
| SUM(X) |
|--------|
|     60 |
+--------+

집계 함수 및 NULL 값¶

일부 집계 함수는 NULL 값을 무시합니다. 예를 들어, AVG 는 다음 수식을 기반으로 값 1, 5, NULL 의 평균이 3 인 것으로 계산합니다.

(1 + 5) / 2 = 3

분자와 분모에서 모두 NULL이 아닌 값 두 개만 사용합니다.

집계 함수에 전달된 모든 값이 NULL인 경우 집계 함수는 NULL을 반환합니다.

일부 집계 함수에는 둘 이상의 열이 전달될 수 있습니다. 예:

SELECT COUNT(col1, col2) FROM table1;

이런 경우에는 개별 열이 NULL이면 집계 함수가 행을 무시합니다.

예를 들어, 다음 쿼리에서는 선택한 열에서 네 행 중 세 행에 하나 이상의 NULL 값이 있으므로 COUNT 는 4 가 아니라 1 을 반환합니다.

다음과 같이 테이블을 만들고 값으로 채웁니다.

CREATE OR REPLACE TABLE test_null_aggregate_functions (x INT, y INT);
INSERT INTO test_null_aggregate_functions (x, y) VALUES
  (1, 2),         -- No NULLs.
  (3, NULL),      -- One but not all columns are NULL.
  (NULL, 6),      -- One but not all columns are NULL.
  (NULL, NULL);   -- All columns are NULL.

테이블을 쿼리합니다.

SELECT COUNT(x, y) FROM test_null_aggregate_functions;

+-------------+
| COUNT(X, Y) |
|-------------|
|           1 |
+-------------+

두 개 이상의 열을 참조하는 식으로 SUM 을 호출하고 해당 열 중 하나 이상이 NULL인 경우 이 식은 NULL로 계산되고 행은 무시됩니다.

SELECT SUM(x + y) FROM test_null_aggregate_functions;

+------------+
| SUM(X + Y) |
|------------|
|          3 |
+------------+

다음과 같이 이 동작은 일부 열이 NULL일 때 행을 삭제하지 않는 GROUP BY 의 동작과 다릅니다.

SELECT x AS X_COL, y AS Y_COL 
  FROM test_null_aggregate_functions 
  GROUP BY x, y;

+-------+-------+
| X_COL | Y_COL |
|-------+-------|
|     1 |     2 |
|     3 |  NULL |
|  NULL |     6 |
|  NULL |  NULL |
+-------+-------+