카테고리:: 집계 함수 , 윈도우 함수

HASH_AGG¶

(순서 없는) 입력 행 세트에 대해 부호 있는 집계 64비트 해시 값을 반환합니다. HASH_AGG는 절대 NULL을 반환하지 않습니다. 입력이 제공되지 않은 경우에도 마찬가지입니다. 입력 “해시”를 0 으로 비웁니다.

집계 해시 함수의 한 가지 용도는 개별 이전 값과 새 값을 비교하지 않고 값 세트의 변경 사항을 감지하는 것입니다. HASH_AGG는 많은 입력을 기반으로 단일 해시 값을 계산할 수 있습니다. 입력 중 하나에 대한 거의 모든 변경으로 인해 HASH_AGG 함수의 출력이 변경될 수 있습니다. 두 값 목록을 비교하려면 일반적으로 두 목록을 모두 정렬해야 하지만, HASH_AGG는 입력 순서와 관계없이 동일 값을 생성합니다. HASH_AGG에 대해 값을 정렬할 필요가 없기 때문에 일반적으로 성능이 훨씬 빠릅니다.

참고

HASH_AGG는 암호화 해시 함수가 아니므로 그대로 사용해서는 안 됩니다.

암호화 목적의 경우, SHA 함수 집합(문자열 및 이진 함수)을 사용하십시오.

참고 항목:: HASH

구문¶

집계 함수

HASH_AGG( [ DISTINCT ] <expr> [ , <expr2> ... ] )

HASH_AGG(*)

윈도우 함수

HASH_AGG( [ DISTINCT ] <expr> [ , <expr2> ... ] ) OVER ( [ PARTITION BY <expr3> ] )

HASH_AGG(*) OVER ( [ PARTITION BY <expr3> ] )

인자¶

exprN

식은 GEOGRAPHY 및 GEOMETRY 를 제외한 모든 Snowflake 데이터 타입의 일반 식일 수 있습니다.

expr2

추가적인 식을 포함할 수 있습니다.

expr3

결과를 여러 윈도우로 분할하려는 경우 분할할 열입니다.

*

NULL 값을 가진 레코드를 포함하여 모든 레코드의 모든 열에 대해 집계된 해시 값을 반환합니다. 집계 함수와 윈도우 함수 모두에 와일드카드를 지정할 수 있습니다.

함수에 와일드카드를 전달할 때 와일드카드를 테이블의 이름이나 별칭으로 한정할 수 있습니다. 예를 들어, mytable 이라는 테이블의 모든 열을 전달하려면 다음을 지정하십시오.

(mytable.*)

필터링을 위해 ILIKE 및 EXCLUDE 키워드를 사용할 수도 있습니다.

ILIKE는 지정된 패턴과 일치하는 열 이름을 필터링합니다. 패턴은 하나만 허용됩니다. 예:
```
(* ILIKE 'col1%')
```
EXCLUDE는 지정된 열과 일치하지 않는 열 이름을 걸러냅니다. 예:
```
(* EXCLUDE col1)

(* EXCLUDE (col1, col2))
```

이러한 키워드를 사용할 경우 한정자가 유효합니다. 다음 예에서는 ILIKE 키워드를 사용하여 테이블 mytable 의 패턴 col1% 와 일치하는 모든 열을 필터링합니다.

(mytable.* ILIKE 'col1%')

ILIKE 및 EXCLUDE 키워드는 단일 함수 호출에서 결합할 수 없습니다.

이 함수의 경우 ILIKE 및 EXCLUDE 키워드는 SELECT 목록이나 GROUP BY 절에서만 유효합니다.

ILIKE 및 EXCLUDE 키워드에 대한 자세한 내용은 SELECT 의 “매개 변수” 섹션을 참조하십시오.

반환¶

부호 있는 64비트 값을 NUMBER(19,0)으로서 반환합니다.

HASH_AGG는 NULL 입력의 경우에도 절대로 NULL을 반환하지 않습니다.

사용법 노트¶

HASH_AGG 는 전체 테이블, 쿼리 결과 또는 윈도우에 대해 “지문”을 계산합니다. 입력에 대한 변경 사항은 압도적 확률로 HASH_AGG의 결과에 영향을 미칩니다. 이는 테이블 내용이나 쿼리 결과의 변경 사항을 빠르게 감지하는 데 사용할 수 있습니다.

가능성은 거의 없지만, 두 개의 서로 다른 입력 테이블이 HASH_AGG에 대해 동일 결과를 생성할 가능성이 있습니다. 동일한 HASH_AGG 결과를 생성하는 두 개의 테이블 또는 쿼리 결과에 실제로 동일 데이터가 포함되어 있는지 확인해야 하는 경우에도 여전히 사용자는 데이터가 동일한지 비교해야 합니다(예: MINUS 연산자 사용을 통해). 자세한 내용은 세트 연산자 섹션을 참조하십시오.
HASH_AGG 는 순서를 구분하지 않습니다 (즉, 입력 테이블 또는 쿼리 결과의 행 순서는 HASH_AGG 의 결과에 영향을 미치지 않음). 그러나 입력 열의 순서를 변경하면 결과가 실제로 변경됩니다.
HASH_AGG는 HASH 함수를 사용하여 개별 입력 행을 해시합니다. 이 함수의 두드러진 기능은 HASH_AGG로 이어집니다. 특히 HASH_AGG 는 동일하게 비교되고 호환 가능 형식을 가진 두 행이 동일 값으로 해시된다는 점에서 안정적입니다(즉, HASH_AGG 의 결과에 동일 방식으로 영향을 미침).

예를 들어, 몇몇 테이블의 일부인 열의 스케일과 정밀도를 변경해도 해당 테이블에 대한 HASH_AGG 의 결과는 변경되지 않습니다. 자세한 내용은 HASH 섹션을 참조하십시오.
대부분의 다른 집계 함수와 달리 HASH_AGG 는 NULL 입력을 무시하지 않습니다(즉, NULL 입력은 HASH_AGG 의 결과에 영향을 미침).
집계 함수와 윈도우 함수의 경우, 모두 NULL 인 중복 행을 포함하여 중복 행이 결과에 영향을 줍니다. DISTINCT 키워드는 중복 행의 영향을 억제하는 데 사용할 수 있습니다.

이 함수가 윈도우 함수로 호출되는 경우에는 다음을 지원하지 않습니다.
- OVER 절 내의 ORDER BY 절.
- 명시적 윈도우 프레임.

데이터 정렬 세부 정보¶

동일하지만 데이터 정렬 사양이 다른 두 문자열은 같은 해시 값을 갖습니다. 즉, 데이터 정렬 사양이 아니라 문자열만 해시 값에 영향을 줍니다.
서로 다르지만 데이터 정렬에 따라 동일하게 비교되는 두 문자열은 다른 해시 값을 가질 수 있습니다. 예를 들어, 구두점을 구분하지 않는 데이터 정렬을 사용하는 동일한 두 문자열은 일반적으로, 다른 해시 값을 갖게 됩니다. 데이터 정렬 사양이 아니라 문자열만 해시 값에 영향을 미치기 때문입니다.

예¶

이 예에서는 NULL이 무시되지 않음을 보여줍니다.

SELECT HASH_AGG(NULL), HASH_AGG(NULL, NULL), HASH_AGG(NULL, NULL, NULL);

+----------------------+----------------------+----------------------------+
|       HASH_AGG(NULL) | HASH_AGG(NULL, NULL) | HASH_AGG(NULL, NULL, NULL) |
|----------------------+----------------------+----------------------------|
| -5089618745711334219 |  2405106413361157177 |       -5970411136727777524 |
+----------------------+----------------------+----------------------------+

이 예에서는 빈 입력이 0 으로 해시됨을 보여줍니다.

SELECT HASH_AGG(NULL) WHERE 0 = 1;

+----------------+
| HASH_AGG(NULL) |
|----------------|
|              0 |
+----------------+

HASH_AGG(*)를 사용하여 모든 입력 열에 대해 편리하게 집계합니다.

SELECT HASH_AGG(*) FROM orders;

+---------------------+
|     HASH_AGG(*)     |
|---------------------|
| 1830986524994392080 |
+---------------------+

이 예에서는 그룹화된 집계가 지원됨을 보여줍니다.

SELECT YEAR(o_orderdate), HASH_AGG(*)
  FROM ORDERS GROUP BY 1 ORDER BY 1;

+-------------------+----------------------+
| YEAR(O_ORDERDATE) |     HASH_AGG(*)      |
|-------------------+----------------------|
| 1992              | 4367993187952496263  |
| 1993              | 7016955727568565995  |
| 1994              | -2863786208045652463 |
| 1995              | 1815619282444629659  |
| 1996              | -4747088155740927035 |
| 1997              | 7576942849071284554  |
| 1998              | 4299551551435117762  |
+-------------------+----------------------+

이 예에서는 DISTINCT 를 사용하여 중복 행을 억제합니다(중복 행은 HASH_AGG 결과에 영향을 줌).

SELECT YEAR(o_orderdate), HASH_AGG(o_custkey, o_orderdate)
  FROM orders GROUP BY 1 ORDER BY 1;

+-------------------+----------------------------------+
| YEAR(O_ORDERDATE) | HASH_AGG(O_CUSTKEY, O_ORDERDATE) |
|-------------------+----------------------------------|
| 1992              | 5686635209456450692              |
| 1993              | -6250299655507324093             |
| 1994              | 6630860688638434134              |
| 1995              | 6010861038251393829              |
| 1996              | -767358262659738284              |
| 1997              | 6531729365592695532              |
| 1998              | 2105989674377706522              |
+-------------------+----------------------------------+

SELECT YEAR(o_orderdate), HASH_AGG(DISTINCT o_custkey, o_orderdate)
  FROM orders GROUP BY 1 ORDER BY 1;

+-------------------+-------------------------------------------+
| YEAR(O_ORDERDATE) | HASH_AGG(DISTINCT O_CUSTKEY, O_ORDERDATE) |
|-------------------+-------------------------------------------|
| 1992              | -8416988862307613925                      |
| 1993              | 3646533426281691479                       |
| 1994              | -7562910554240209297                      |
| 1995              | 6413920023502140932                       |
| 1996              | -3176203653000722750                      |
| 1997              | 4811642075915950332                       |
| 1998              | 1919999828838507836                       |
+-------------------+-------------------------------------------+

이 예에서는 상태가 'F' 가 아닌 주문과 상태가 'P' 가 아닌 주문에 해당하는 고객 세트가 동일한 일수를 계산합니다.

SELECT COUNT(DISTINCT o_orderdate) FROM orders;

+-----------------------------+
| COUNT(DISTINCT O_ORDERDATE) |
|-----------------------------|
| 2406                        |
+-----------------------------+

SELECT COUNT(o_orderdate)
  FROM (SELECT o_orderdate, HASH_AGG(DISTINCT o_custkey)
    FROM orders
    WHERE o_orderstatus <> 'F'
    GROUP BY 1
    INTERSECT
      SELECT o_orderdate, HASH_AGG(DISTINCT o_custkey)
        FROM orders
        WHERE o_orderstatus <> 'P'
        GROUP BY 1);

+--------------------+
| COUNT(O_ORDERDATE) |
|--------------------|
| 1143               |
+--------------------+

쿼리는 해시 충돌 가능성을 고려하지 않으므로 실제 일수는 약간 더 적을 수 있습니다.