민감한 데이터에 대한 사용자 지정 카테고리 생성¶
도메인별 민감한 데이터를 감지하는 :doc:`네이티브 의미 체계 카테고리</user-guide/classify-native>`가 없는 경우 민감한 데이터에 대한 사용자 지정 카테고리를 생성할 수 있습니다.
사용자 지정 분류기를 정의하여 사용자 지정 의미 체계 카테고리를 구현합니다. 사용자 지정 분류기의 특성은 다음과 같습니다.
데이터 타입을 식별하는 사용자 지정 의미 체계 카테고리(예:
medical_code및employee_id)입니다.민감한 데이터를 감지하기 위해 Snowflake의 알고리즘에서 사용하는 정규식입니다.
미리 정의된 개인정보 보호 카테고리 중 하나입니다.
작동 방법¶
Snowflake provides the CUSTOM_CLASSIFIER class in the SNOWFLAKE.DATA_PRIVACY schema to enable data engineers to extend their data classification capabilities based on their own knowledge of their data. After you create an instance of the class, you can call a method on the instance to define your custom semantic category, specify the privacy category, and specify regular expressions to match column value patterns while optionally matching the column name.
중요
민감한 데이터 분류는 참조가 아닌 사용자 지정 분류기의 정의를 저장합니다. 사용자 지정 분류기를 변경하는 경우 SET_CUSTOM_CLASSIFIERS 메서드를 사용하여 새 정의로 분류 프로필을 업데이트해야 합니다.
사용자 지정 분류기를 생성하고 사용하기 위해 CUSTOM_CLASSIFIER 클래스를 사용하는 예제는 예 섹션을 참조하세요.
고려 사항¶
Choose a warehouse that matches the size of the data you are classifying:
처리 시간에 대한 걱정 없음:X-Small 웨어하우스.
테이블에 최대 100개의 열:Small 웨어하우스.
테이블에 101~300개의 열:Medium 웨어하우스.
한 테이블에 300개 초과:Large 웨어하우스.
Threshold for custom categories¶
사용자 지정 카테고리를 분류하는 데 사용되는 알고리즘은 *채점 규칙*을 통해 사용자 지정 분류기의 정규식을 평가하여 추천할 의미 체계 카테고리를 결정합니다.
The scoring rule uses a default threshold value of 0.8, which equates to high confidence in terms of what the recommended category should be. Eighty percent of the data in the sample must match the regular expressions that you add to the instance. The algorithm compares the score for a column against the threshold value and recommends a category that corresponds to one of the following:
비국제 시스템 태그
국제 시스템 태그
Custom classifier tag
인스턴스에서 custom_classifier !ADD_REGEX 메서드를 호출하여 사용자 지정 분류 인스턴스에 대한 임계값을 지정할 수 있습니다.
참고
두 개의 사용자 지정 분류기는 점수가 동일할 수 있습니다. 이 경우 동점이면 다음을 평가하여 동점을 해결합니다.
각 사용자 지정 카테고리 간 일치율.
사용자 지정 카테고리 이름의 알파벳 순서.
이 경우, 더 높은 카테고리가 추천 카테고리가 되고 나머지는 대체 카테고리에 포함됩니다.
다음 표에는 채점 알고리즘과 권장 태그가 요약되어 있습니다.
제공되는 이름 일치 항목 |
값이 >= 임계값과 일치 |
이름 일치 |
권장 사항 |
|---|---|---|---|
True |
True |
True |
사용자 지정 카테고리 |
False |
True |
Snowflake 카테고리 |
|
True |
False |
Snowflake 카테고리 |
|
False |
False |
Snowflake 카테고리 |
|
False |
True |
해당 없음 |
사용자 지정 카테고리 |
False |
해당 없음 |
Snowflake 카테고리 |
복제 및 물리적 복제¶
데이터베이스를 복제할 때 CUSTOM_CLASSIFIER 클래스의 인스턴스가 복제됩니다.
인스턴스가 포함된 스키마를 복제할 때 CUSTOM_CLASSIFIER 클래스의 인스턴스가 복제됩니다.