데이터 품질 검사 소개

Snowflake의 데이터 품질 검사는 데이터의 상태를 지속적으로 검증합니다. 이러한 검사는 자동화되고 일관된 데이터 유효성 검사를 제공하여 규제 표준을 준수하고, 정확한 메트릭을 통해 서비스 수준 계약을 충족하며, 데이터 기반 의사 결정의 신뢰성을 구축하는 데 도움이 됩니다. Cortex Data Quality를 사용하면 AI를 통해 메타데이터 및 사용 패턴의 특성을 기반으로 데이터 품질 검사를 에이전트 방식으로 제안하여 검사를 수동으로 정의할 필요가 없고 Snowflake 내에서 데이터를 안전하게 유지하면서 설정 프로세스를 가속화할 수 있습니다. 구성이 완료되면 선택한 일정에 따라 품질 검사가 자동으로 실행되어 위반 사항을 보고하여 시정 조치를 취할 수 있습니다.

시작하기

Snowflake는 데이터 품질 검사를 설정하고 이러한 검사 결과를 모니터링할 수 있는 웹 인터페이스를 제공합니다.

시작하려면 다음 중 하나를 수행합니다.

데이터 품질 검사의 핵심 개념

데이터 메트릭 함수(DMF)

DMF는 데이터의 속성(예: 열에 존재하는 NULL 값의 양 또는 테이블이 업데이트되는 빈도)을 측정합니다. DMF는 데이터의 현재 상태를 기반으로 값을 반환하지만, 해당 값이 데이터 품질 문제를 구성하는지 여부를 정의하지는 않습니다. DMF는 데이터 품질 검사의 구성 요소입니다.

Snowflake는 *시스템 DMFs*를 제공하여 구성할 필요 없이 일반적인 메트릭을 측정합니다. 다양한 차원에 사용할 수 있는 시스템 DMFs 목록의 경우 시스템 데이터 메트릭 함수 섹션을 참조하세요.

모니터링하려는 메트릭에 대해 시스템 DMF가 없는 경우 *사용자 지정 DMF*를 정의할 수 있습니다. 사용자 지정 DMF를 생성하는 방법을 알아보려면 사용자 지정 데이터 메트릭 함수 섹션을 참조하세요.

기대치

기대치는 DMF와 결합되어 데이터 품질 검사를 생성합니다. DMF가 값을 반환하는 경우, 기대치의 정의와 비교하여 데이터가 검사를 통과했는지 여부를 결정합니다. 실패한 반환 값은 기대치 위반으로 보고되므로 적절한 조치를 취할 수 있습니다.

:doc:`Snowsight를 사용하여 데이터 품질 검사를 생성 <data-quality-ui-setup>`하는 경우 DMF를 선택하고 동시에 기대치를 정의합니다. :doc:`SQL을 사용하여 기대치로 직접 작업 <data-quality-expectations>`할 수도 있습니다.

변칙 검색

변칙 검색은 DMF 반환 값이 예측 범위보다 크거나 작은 경우 과거 데이터를 사용하여 자동으로 감지합니다. 현재, Snowflake는 데이터 볼륨의 변칙과 최신성을 자동으로 감지할 수 있습니다. 자세한 내용은 데이터 품질 변칙 감지하기 섹션을 참조하십시오.

DMF 일정

테이블 또는 뷰의 DMF 일정에 따라 DMF가 실행되는 빈도가 결정됩니다. DMF는 데이터 품질 검사를 지원하므로 DMF 일정에 따라 품질 검사가 수행되는 빈도가 결정됩니다. 기본적으로, DMF 일정은 1시간에 한 번 DMF를 실행합니다. 테이블 또는 뷰의 일정을 조정하려면 품질 검사 실행 빈도 조정 섹션을 참조하세요.

DMF 일정은 Snowflake가 변칙이 있는지 여부를 확인하는 빈도에 영향을 주지 않습니다.

지원되는 테이블 종류

다음 종류의 테이블 오브젝트에 DMF를 설정할 수 있습니다.

  • 동적 테이블

  • 이벤트 테이블

  • 외부 테이블

  • Apache Iceberg™ 테이블

  • 구체화된 뷰

  • 임시 및 일시적 테이블을 포함한 테이블(CREATE TABLE)

하이브리드 테이블이나 스트림 오브젝트에는 DMF를 설정할 수 없습니다.

비용 고려 사항

데이터 품질 검사를 지원하는 DMFs는 비용이 발생하는 :ref:`서버리스 컴퓨팅 리소스 <label-serverless_credit_usage>`를 사용합니다. 이러한 비용의 가격은 `Snowflake Service Consumption Table`_을 참조하세요.

서버리스 컴퓨팅 리소스에서 사용한 크레딧은 월별 청구서의 “Data Quality Monitoring” 카테고리에 목록으로 표시됩니다. 이러한 크레딧에는 사용자가 사용하는 모든 시스템 또는 사용자 정의 데이터 품질 메트릭에서 사용하는 컴퓨팅 비용이 포함됩니다. DMF 생성에 대한 요금은 청구되지 않습니다.

  • 오브젝트에 대해 예약된 DMF가 계산된 경우에만 과금이 발생합니다. SELECT 문으로 DMF를 호출하는 등 예정에 없던 데이터 메트릭 함수 사용량에 대해서는 요금이 청구되지 않습니다.

  • 로깅 인프라는 이벤트 테이블의 메트릭 출력을 통합합니다. 로깅 서비스로 인해 발생한 소비량은 월별 청구서에 “로깅”으로 표시됩니다.

품질 검사와 관련된 사용량을 추적하기 위해 다음 뷰를 쿼리할 수 있습니다.

복제

복제 및 DMFs에 대한 자세한 내용은 데이터 메트릭 함수(DMFs) 복제 섹션을 참조하십시오.

제한 사항

DMFs를 사용할 때는 다음 제한 사항에 유의하십시오.

  • 계정당 오브젝트에 대해 총 10,000개까지만 DMFs를 연결할 수 있습니다. 테이블 또는 뷰에서 DMF를 설정하는 각 인스턴스는 1개의 연결로 계산됩니다.

  • 데이터 공유: 공유 테이블 또는 뷰를 공유하거나 공유 테이블 또는 뷰에 DMF를 설정할 수 있는 권한을 DMF에 부여할 수 없습니다.

  • 오브젝트 태그에 DMF를 설정하는 기능은 지원되지 않습니다.

  • :ref:`독자 계정 <label-about_reader_accounts>`의 오브젝트에는 DMF를 설정할 수 없습니다.

  • 평가판 계정에서는 이 기능을 지원하지 않습니다.