민감한 데이터에 대한 사용자 지정 카테고리 생성¶
도메인별 민감한 데이터를 감지하는 :doc:`네이티브 의미 체계 카테고리</user-guide/classify-native>`가 없는 경우 민감한 데이터에 대한 사용자 지정 카테고리를 생성할 수 있습니다.
사용자 지정 분류기를 정의하여 사용자 지정 의미 체계 카테고리를 구현합니다. 사용자 지정 분류기의 특성은 다음과 같습니다.
데이터 타입을 식별하는 사용자 지정 의미 체계 카테고리(예:
medical_code및employee_id)입니다.민감한 데이터를 감지하기 위해 Snowflake의 알고리즘에서 사용하는 정규식입니다.
미리 정의된 개인정보 보호 카테고리 중 하나입니다.
작동 방법¶
Snowflake는 데이터 엔지니어가 해당 데이터에 대한 자신의 지식을 기반으로 데이터 분류 기능을 확장할 수 있도록 SNOWFLAKE.DATA_PRIVACY 스키마에 CUSTOM_CLASSIFIER :doc:`클래스</sql-reference/classes/custom_classifier>`를 제공합니다. 클래스의 인스턴스를 만든 후 인스턴스에서 메서드를 호출하여 사용자 지정 의미 체계 카테고리를 정의하고, 개인정보 보호 카테고리를 지정하고, 열 값 패턴과 일치하는 정규식을 지정하고 선택적으로 열 이름과 일치시킬 수 있습니다.
중요
민감한 데이터 분류는 참조가 아닌 사용자 지정 분류기의 정의를 저장합니다. 사용자 지정 분류기를 변경하는 경우 SET_CUSTOM_CLASSIFIERS 메서드를 사용하여 새 정의로 분류 프로필을 업데이트해야 합니다.
사용자 지정 분류기를 생성하고 사용하기 위해 CUSTOM_CLASSIFIER 클래스를 사용하는 예제는 예 섹션을 참조하세요.
고려 사항¶
분류할 데이터 크기에 맞는 웨어하우스를 선택합니다.
처리 시간에 대한 걱정 없음:X-Small 웨어하우스.
테이블에 최대 100개의 열:Small 웨어하우스.
테이블에 101~300개의 열:Medium 웨어하우스.
한 테이블에 300개 초과:Large 웨어하우스.
사용자 지정 카테고리의 임계값¶
사용자 지정 카테고리를 분류하는 데 사용되는 알고리즘은 *채점 규칙*을 통해 사용자 지정 분류기의 정규식을 평가하여 추천할 의미 체계 카테고리를 결정합니다.
채점 규칙은 기본 임계값인 0.8을 사용하는데, 이는 권장 카테고리에 대한 높은 신뢰도에 해당합니다. 샘플에 있는 데이터의 80%는 인스턴스에 추가하는 정규식과 일치해야 합니다. 이 알고리즘은 열의 점수를 임계값과 비교하고 다음 중 하나에 해당하는 카테고리를 추천합니다.
비국제 시스템 태그
국제 시스템 태그
사용자 지정 분류기 태그
인스턴스에서 custom_classifier !ADD_REGEX 메서드를 호출하여 사용자 지정 분류 인스턴스에 대한 임계값을 지정할 수 있습니다.
참고
두 개의 사용자 지정 분류기는 점수가 동일할 수 있습니다. 이 경우 동점이면 다음을 평가하여 동점을 해결합니다.
각 사용자 지정 카테고리 간 일치율.
사용자 지정 카테고리 이름의 알파벳 순서.
이 경우, 더 높은 카테고리가 추천 카테고리가 되고 나머지는 대체 카테고리에 포함됩니다.
다음 표에는 채점 알고리즘과 권장 태그가 요약되어 있습니다.
제공되는 이름 일치 항목 |
값이 >= 임계값과 일치 |
이름 일치 |
권장 사항 |
|---|---|---|---|
True |
True |
True |
사용자 지정 카테고리 |
False |
True |
Snowflake 카테고리 |
|
True |
False |
Snowflake 카테고리 |
|
False |
False |
Snowflake 카테고리 |
|
False |
True |
해당 없음 |
사용자 지정 카테고리 |
False |
해당 없음 |
Snowflake 카테고리 |
복제 및 물리적 복제¶
데이터베이스를 복제할 때 CUSTOM_CLASSIFIER 클래스의 인스턴스가 복제됩니다.
인스턴스가 포함된 스키마를 복제할 때 CUSTOM_CLASSIFIER 클래스의 인스턴스가 복제됩니다.