사용자 지정 데이터 분류¶
이 항목에서는 Snowflake의 사용자 지정 데이터 분류에 대한 개념을 제공합니다.
개요¶
Snowflake는 데이터 엔지니어가 데이터에 대한 자신의 지식을 기반으로 데이터 분류 기능을 확장할 수 있도록 SNOWFLAKE DATA_PRIVACY 스키마에 CUSTOM_CLASSIFIER 클래스 를 제공합니다. 클래스의 인스턴스를 생성한 후 인스턴스에서 메서드를 호출하여 고유한 의미 체계 카테고리를 정의하고, 개인정보 보호 카테고리를 지정하고, 선택적으로 열 이름과 일치하면서 열 값 패턴과 일치하도록 정규식을 지정할 수 있습니다.
사용자 지정 분류 인스턴스를 생성하고 사용하면 다음을 수행할 수 있습니다.
데이터 분류 작업 가속화.
민감한 데이터가 포함된 열에 대한 산업 및 도메인별 태그 정의.
Snowflake를 활용하여 PII 데이터 추적 작업을 더 효과적으로 제어.
고려 사항¶
분류할 데이터 크기에 맞는 웨어하우스를 선택합니다. 자세한 내용은 컴퓨팅 비용 섹션을 참조하십시오.
사용자 지정 분류 알고리즘 정보¶
Snowflake는 데이터 분류 알고리즘과 비교하여 사용자 지정 분류에 고유한 알고리즘을 사용합니다. 서로 다른 분류 알고리즘을 사용하는 이유는 선택하는 데이터 분류 방법에 따라 안정적인 결과를 보장하려는 것입니다.
사용자 지정 분류 알고리즘은 채점 규칙 을 사용하여 추천할 의미 체계 카테고리 시스템 태그와 대안으로 제안할 의미 체계 카테고리 태그(있는 경우)를 결정합니다. 채점 논리는 인스턴스에 추가하는 정규식을 평가하는데, 인스턴스에서 custom_classifier !ADD_REGEX 메서드를 호출하여 이를 지정합니다.
채점 규칙에서는 선택해야 할 권장 태그라는 측면에서 높은 신뢰도와 동일한 기본 임계값인 0.8
을 사용합니다. 샘플의 데이터 중 80%는 인스턴스에 추가한 정규 식과 일치해야 합니다. 이 알고리즘은 열의 점수를 임계값과 비교하고 다음 중 하나에 해당하는 태그를 추천합니다.
사용자 지정 분류자 태그.
인스턴스에서 custom_classifier !ADD_REGEX 메서드를 호출하여 사용자 지정 분류 인스턴스에 대한 임계값을 지정할 수 있습니다.
참고
두 개의 사용자 지정 분류기는 점수가 동일할 수 있습니다. 이 경우 동점이면 다음을 평가하여 동점을 해결합니다.
각 사용자 지정 카테고리 간 일치율.
사용자 지정 카테고리 이름의 알파벳 순서.
이 경우, 더 높은 카테고리가 추천 카테고리가 되고 나머지는 대체 카테고리에 포함됩니다.
다음 표에는 채점 알고리즘과 권장 태그가 요약되어 있습니다.
제공되는 이름 일치 항목 |
값이 >= 임계값과 일치 |
이름 일치 |
권장 사항 |
---|---|---|---|
True |
True |
True |
사용자 지정 카테고리 |
False |
True |
Snowflake 카테고리 |
|
True |
False |
Snowflake 카테고리 |
|
False |
False |
Snowflake 카테고리 |
|
False |
True |
해당 없음 |
사용자 지정 카테고리 |
False |
해당 없음 |
Snowflake 카테고리 |
복제 및 물리적 복제¶
데이터베이스를 복제할 때 CUSTOM_CLASSIFIER 클래스의 인스턴스가 복제됩니다.
인스턴스가 포함된 스키마를 복제할 때 CUSTOM_CLASSIFIER 클래스의 인스턴스가 복제됩니다.