분석가로 개인정보 보호 도메인 관련 작업하기

개인정보 보호 도메인 은 수학적 도메인과 유사하게 열에 가능한 값을 정의합니다. Snowflake는 개인정보 보호 도메인을 사용하여 결과에 얼마나 많은 노이즈를 추가할지 결정합니다.

이 섹션의 작업을 완료하기 전에 개인정보 보호 도메인에 대해 완전하게 이해하려면 개인정보 보호 도메인 정보 섹션을 참조하십시오.

데이터 공급자가 모범 사례를 준수했다면 개인정보 보호 테이블의 대부분의 숫자 및 카테고리 열에는 개인정보 보호 도메인이 있습니다. 데이터 공급자가 집계하거나 GROUP BY 절에서 사용할 열에 대해 설정하지 않은 경우, 해당 열의 개인정보 보호 도메인을 암시적으로 지정하는 기법을 포함하도록 쿼리를 구성해야 합니다. 데이터 공급자가 테이블에 설정한 개인정보 보호 도메인은 테이블에서 수행된 작업에 따라 손실될 수도 있습니다. 예를 들어, 하위 쿼리에서 GROUP BY로 필드를 집계하는 경우 개인정보 보호 제약 조건으로 인해 시스템에서 개인정보 보호 도메인을 도출하지 못할 수 있습니다.

데이터 공급자가 설정한 개인정보 보호 도메인을 좁히기 위해 쿼리를 작성할 수도 있습니다. 이러한 재정의는 집계 결과를 개선하는 데 도움이 될 수 있습니다.

참고

개인 정보 보호 테이블을 사용한 조인 요구 사항 을 충족하려면 분석가가 개인 정보 보호가 되지 않더라도 자신의 테이블 열에 대한 개인정보 보호 도메인을 정의해야 할 수 있습니다. 이러한 개인정보 보호 도메인은 테이블 수준에서 정의되며, 테이블에 대한 모든 쿼리에 적용됩니다. 분석가의 관리자이고 테이블 중 하나의 열에 대한 개인정보 보호 도메인을 지정해야 하는 경우 개인정보 보호 도메인 설정하기 섹션을 참조하십시오.

개인정보 보호 도메인 보기

테이블을 쿼리하기 전에 개인정보 보호가 설정된 테이블의 개인정보 보호 도메인을 확인하는 것이 유용합니다. 각 열의 개인정보 보호 도메인을 확인하는 것은 다음과 같은 면에서 도움이 될 수 있습니다.

  • 데이터 공급자가 열에 대해 개인정보 보호 도메인을 설정했는지 확인합니다.

  • 열에서 있을 수 있는 가능한 값을 파악하면 분석을 개선하는 데 도움이 될 수 있습니다. 예를 들어, 개인정보 보호 도메인이 열에 있는 가능한 값의 범위인 경우 범위의 최소값과 최대값을 결정할 수 있습니다.

  • 결과에서 예상보다 더 많은 노이즈 가 발생하는 이유를 조사합니다. 분석에 중요하지 않은 이상값이 있는지 식별하고 집계에서 해당 값을 제거하여 결과를 개선 할 수 있습니다.

열에 개인정보 보호 도메인이 있는지 확인하고, 그렇다면 도메인의 유형과 가능한 값을 확인하려면 개인정보 보호 도메인 보기 섹션을 참조하십시오.

개인정보 보호 도메인 지정하기

이 섹션에서는 분석가가 쿼리 기간 동안 개인정보 보호 도메인을 설정하는 데 사용할 수 있는 기법에 대해 설명합니다. 그리고 쿼리의 구조가 열에 대한 개인정보 보호 도메인을 지정하는 방법을 요약합니다.

문자열 열에 개인정보 보호 도메인 지정

WHERE 절을 사용하여 문자열 열을 필터링하면 해당 열에 대한 개인정보 보호 도메인이 지정됩니다. 개인정보 보호 도메인은 필터와 일치하는 값으로 구성됩니다. 예를 들어, 쿼리에 다음 절이 포함된 경우 product 열에 대한 개인정보 보호 도메인을 지정합니다.

WHERE product = 'hackeysack' OR product = 'frisbee'
Copy
WHERE product IN ('hackeysack', 'frisbee')
Copy

개인정보 보호 도메인은 hackeysackfrisbee 로 구성된 열거형 목록입니다.

데이터 공급자가 이미 product 열에 개인정보 보호 도메인을 설정한 경우, Snowflake는 쿼리 기간 동안 2개 개인정보 보호 도메인의 교집합을 사용합니다. 자세한 내용은 관리자가 지정한 개인정보 보호 도메인과 분석가가 지정한 개인정보 보호 도메인 간 상호 작용 섹션을 참조하십시오.

문자열 열의 개인정보 보호 도메인을 벗어난 값은 NULL로 처리 됩니다.

숫자, 날짜 및 시간 열에 대한 개인정보 보호 도메인 지정

필터링 절이나 열 변환을 사용하여 숫자, 날짜 또는 시간 열에 대한 개인정보 보호 도메인을 지정할 수 있습니다. 이러한 쿼리 기법은 가능한 값의 범위인 개인정보 보호 도메인을 지정합니다.

다음 기법을 사용하여 숫자, 날짜 또는 시간 열에 대한 개인정보 보호 도메인을 지정할 수 있습니다.

WHERE 절

예:

WHERE a < 10 AND a >= 0
Copy

a 열의 지정된 개인정보 보호 도메인은 0~10 사이입니다.

데이터 공급자가 이미 a 열에 개인정보 보호 도메인을 설정한 경우, Snowflake는 쿼리 기간 동안 2개 개인정보 보호 도메인의 교집합을 사용합니다. 자세한 내용은 관리자가 지정한 개인정보 보호 도메인과 분석가가 지정한 개인정보 보호 도메인 간 상호 작용 섹션을 참조하십시오.

필터를 사용하면 개인정보 보호 범위를 벗어나는 값이 제거되므로 집계를 계산할 때 이러한 값은 무시됩니다. 자세한 내용은 숫자, 날짜 및 시간 섹션을 참조하십시오.

GREATEST 및 LEAST 열 변환

예:

GREATEST(LEAST(a, 100), 0) AS clamped_a
Copy

개인정보 보호 도메인의 지정된 범위는 0~100 사이입니다.

데이터 공급자가 이미 a 열에 개인정보 보호 도메인을 설정한 경우, Snowflake는 쿼리 기간 동안 2개 개인정보 보호 도메인의 교집합을 사용합니다. 자세한 내용은 관리자가 지정한 개인정보 보호 도메인과 분석가가 지정한 개인정보 보호 도메인 간 상호 작용 섹션을 참조하십시오.

데이터 공급자가 설정한 개인정보 보호 도메인을 좁히려는 경우 GREATEST 또는 LEAST 변환 중 하나만 사용하여 최대값을 줄이거나 최소값을 늘리면서 범위의 다른 끝은 데이터 공급자가 정의한 개인정보 보호 도메인과 동일하게 유지할 수 있습니다.

개인정보 보호 도메인 외부에 있는 열의 값은 클램핑 되어 도메인에서 가장 가까운 값(최소값 또는 최대값)인 것처럼 처리됩니다.

결과를 개선하기 위해 개인정보 보호 도메인 좁히기

Snowflake는 개인정보 보호 도메인 내에서 정확한 값을 숨기기에 충분한 노이즈 를 적용해야 합니다. 개인정보 보호 도메인에 열에 있는 대부분의 데이터에서 이상값인 값이 포함된 경우, Snowflake는 노이즈를 증가시켜 해당 값의 존재를 가려야 합니다. 개인정보 보호 도메인을 재정의하여 범위를 좁히면 Snowflake가 더 이상 분석에 중요하지 않은 값의 존재를 가릴 필요가 없으므로 노이즈를 줄일 수 있습니다.

개인정보 보호 도메인을 좁히는 데 사용되는 기법은 집계의 계산 방법에 영향을 미칩니다. 사용자의 선택은 분석에 중요한 사항에 따라 달라집니다.

  • 필터(WHERE 절)를 사용하여 개인정보 보호 도메인을 좁히면 집계 계산 시 도메인 외부의 값은 무시됩니다.

    개인정보 보호 도메인의 이상치 값이 데이터 품질 문제로 인한 것이라고 생각되거나 이러한 값이 쿼리와 관련이 없는 경우 필터를 사용하는 것이 더 좋은 방법입니다. 개인정보 보호 도메인에서 이상치 값을 제외하면 분석의 무결성을 유지하는 동시에 결과에 발생하는 노이즈를 크게 줄일 수 있습니다.

  • 열 변환 을 사용하면 도메인 외부에 있는 열의 값이 클램핑 되어 도메인에서 가장 가까운 값(최소값 또는 최대값)인 것처럼 취급됩니다.

    이상값이 데이터 품질 문제가 아니라고 생각되는 경우에도 열 변환을 사용하면 분석이 개선될 수 있습니다. 예를 들어, 값의 평균을 구하는 경우 열 변환을 사용하여 이상값을 클램핑하면 분석이 향상될 수 있습니다.

참고

쿼리에 데이터 세트에서 제한된 수의 레코드만을 대상으로 하는 매우 선택적인 필터가 포함된 경우, Snowflake에서는 결과를 사용하여 개인을 식별할 수 없도록 해야 하기 때문에 실제로 노이즈의 상대적 양이 증가합니다.