민감한 데이터에 대한 사용자 지정 카테고리 생성

도메인별 민감한 데이터를 감지하는 :doc:`네이티브 의미 체계 카테고리</user-guide/classify-native>`가 없는 경우 민감한 데이터에 대한 사용자 지정 카테고리를 생성할 수 있습니다.

사용자 지정 분류기를 정의하여 사용자 지정 의미 체계 카테고리를 구현합니다. 사용자 지정 분류기의 특성은 다음과 같습니다.

  • 데이터 타입을 식별하는 사용자 지정 의미 체계 카테고리(예: medical_codeemployee_id)입니다.

  • 민감한 데이터를 감지하기 위해 Snowflake의 알고리즘에서 사용하는 정규식입니다.

  • 미리 정의된 개인정보 보호 카테고리 중 하나입니다.

작동 방법

Snowflake는 데이터 엔지니어가 해당 데이터에 대한 자신의 지식을 기반으로 데이터 분류 기능을 확장할 수 있도록 SNOWFLAKE.DATA_PRIVACY 스키마에 CUSTOM_CLASSIFIER :doc:`클래스</sql-reference/classes/custom_classifier>`를 제공합니다. 클래스의 인스턴스를 만든 후 인스턴스에서 메서드를 호출하여 사용자 지정 의미 체계 카테고리를 정의하고, 개인정보 보호 카테고리를 지정하고, 열 값 패턴과 일치하는 정규식을 지정하고 선택적으로 열 이름과 일치시킬 수 있습니다.

중요

민감한 데이터 분류는 참조가 아닌 사용자 지정 분류기의 정의를 저장합니다. 사용자 지정 분류기를 변경하는 경우 SET_CUSTOM_CLASSIFIERS 메서드를 사용하여 새 정의로 분류 프로필을 업데이트해야 합니다.

사용자 지정 분류기를 생성하고 사용하기 위해 CUSTOM_CLASSIFIER 클래스를 사용하는 예제는 섹션을 참조하세요.

고려 사항

분류할 데이터 크기에 맞는 웨어하우스를 선택합니다.

  • 처리 시간에 대한 걱정 없음:X-Small 웨어하우스.

  • 테이블에 최대 100개의 열:Small 웨어하우스.

  • 테이블에 101~300개의 열:Medium 웨어하우스.

  • 한 테이블에 300개 초과:Large 웨어하우스.

사용자 지정 카테고리의 임계값

사용자 지정 카테고리를 분류하는 데 사용되는 알고리즘은 *채점 규칙*을 통해 사용자 지정 분류기의 정규식을 평가하여 추천할 의미 체계 카테고리를 결정합니다.

채점 규칙은 기본 임계값인 0.8을 사용하는데, 이는 권장 카테고리에 대한 높은 신뢰도에 해당합니다. 샘플에 있는 데이터의 80%는 인스턴스에 추가하는 정규식과 일치해야 합니다. 이 알고리즘은 열의 점수를 임계값과 비교하고 다음 중 하나에 해당하는 카테고리를 추천합니다.

  • 비국제 시스템 태그

  • 국제 시스템 태그

  • 사용자 지정 분류기 태그

인스턴스에서 custom_classifier !ADD_REGEX 메서드를 호출하여 사용자 지정 분류 인스턴스에 대한 임계값을 지정할 수 있습니다.

참고

두 개의 사용자 지정 분류기는 점수가 동일할 수 있습니다. 이 경우 동점이면 다음을 평가하여 동점을 해결합니다.

  • 각 사용자 지정 카테고리 간 일치율.

  • 사용자 지정 카테고리 이름의 알파벳 순서.

이 경우, 더 높은 카테고리가 추천 카테고리가 되고 나머지는 대체 카테고리에 포함됩니다.

다음 표에는 채점 알고리즘과 권장 태그가 요약되어 있습니다.

제공되는 이름 일치 항목

값이 >= 임계값과 일치

이름 일치

권장 사항

True

True

True

사용자 지정 카테고리

False

True

Snowflake 카테고리

True

False

Snowflake 카테고리

False

False

Snowflake 카테고리

False

True

해당 없음

사용자 지정 카테고리

False

해당 없음

Snowflake 카테고리

복제 및 물리적 복제

  • 데이터베이스를 복제할 때 CUSTOM_CLASSIFIER 클래스의 인스턴스가 복제됩니다.

  • 인스턴스가 포함된 스키마를 복제할 때 CUSTOM_CLASSIFIER 클래스의 인스턴스가 복제됩니다.