Snowpark Checkpoints 라이브러리: 수집기

Snowpark Checkpoints Python 패키지는 마이그레이션된 워크로드의 유효성 검사를 지원하기 위한 다양한 기능을 제공합니다. 이 섹션에서는 패키지에 포함된 주요 특징과 기능을 효과적으로 사용하는 방법에 대한 안내와 함께 간략하게 설명합니다.

PySpark Code에 대한 정보 수집하기

snowpark-checkpoints-collectors 패키지는 PySpark DataFrames 에서 정보를 추출하는 함수를 제공합니다. 그런 다음 해당 데이터를 사용하여 변환된 Snowpark DataFrames 에 대해 검증하여 동작 동등성을 보장할 수 있습니다.

다음 함수를 사용하여 새 검사점 수집 지점을 삽입할 수 있습니다.

함수 서명:

def collect_dataframe_checkpoint(df: SparkDataFrame,
  checkpoint_name: str,
  sample: Optional[float],
  mode: Optional[CheckpointMode],
  output_path: Optional[str]) -> None:
Copy

함수 매개 변수:

  • df: PySpark DataFrame.

  • checkpoint_name: 검사점의 이름입니다. 문자(A-Z, a-z) 또는 밑줄(_)로 시작하고 문자, 밑줄, 소수 자릿수(0-9)만 포함합니다.

  • sample: (선택 사항) 샘플 크기입니다. 기본값은 0에서 1.0 사이의 범위에서 1.0(전체 PySpark DataFrame)입니다.

  • mode: (선택 사항) 실행 모드입니다. 옵션은 SCHEMADATAFRAME 입니다. 기본값은 SCHEMA 입니다.

  • output_path: (선택 사항) 검사점을 저장할 출력 경로입니다. 기본값은 현재 작업 디렉터리입니다.

수집 프로세스는 각 수집 지점에 대한 결과 정보가 포함된 checkpoint_collection_result.json 이라는 출력 파일을 생성합니다. JSON 파일이며 다음 정보가 포함되어 있습니다.

  • 수집 지점이 시작된 타임스탬프입니다.

  • 수집 지점이 있는 파일의 상대 경로입니다.

  • 수집 지점이 있는 파일의 코드 줄입니다.

  • 수집 지점 검사점의 이름입니다.

  • 수집 지점 결과(불합격 또는 합격)입니다.

스키마 추론 수집 데이터 모드(스키마)

이 모드는 기본 모드로, Pandera 스키마 추론을 활용하여 지정된 DataFrame 에 대해 평가할 메타데이터와 검사를 가져옵니다. 이 모드는 PySpark 유형에 따라 DataFrame 열에서 사용자 지정 데이터를 수집합니다.

열 데이터 및 확인은 열의 PySpark 타입에 따라 수집됩니다(아래 테이블 참조). 열의 유형에 관계없이 모든 열에 대해 수집되는 사용자 지정 데이터에는 열 이름, 열 유형, null 가능 여부, 행 수, null이 아닌 행 수, null 행 수가 포함됩니다.

사용자 지정 데이터는 PySpark 열의 데이터 타입에 따라 수집됨

열 유형

수집된 사용자 지정 데이터

Numeric(byte, short, integer, long, float, double)

최소값. 최대값. 평균값. 소수점 전체 자릿수(정수형인 경우 값은 0임). 표준 편차.

날짜

최소값. 최대값. 날짜 형식: %Y-%m-%d

DayTimeIntervalType 및 YearMonthIntervalType

최소값. 최대값.

타임스탬프

최소값. 최대값. 날짜 형식: %Y-%m-%dH:%M:%S

Timestamp ntz

최소값. 최대값. 날짜 형식: %Y-%m-%dT%H:%M:%S%z

String

최소 길이 값. 최대 길이 값.

Char

PySpark 는 리터럴을 문자열 유형으로 처리하므로 char 는 유효한 유형이 아닙니다.

Varchar

PySpark 는 리터럴을 문자열 유형으로 처리하므로 Varchar 는 유효한 유형이 아닙니다.

Decimal

최소값. 최대값. 평균값. 소수점 이하 전체 자릿수.

배열

값의 유형. 허용되는 경우 null을 요소로 사용합니다. Null 값의 비율. 최대 배열 크기. 최소 배열 크기. 배열의 평균 크기. 모든 배열의 크기가 같은 경우.

바이너리

최대 크기. 최소 크기. 평균 크기. 모든 요소의 크기가 같은 경우.

Map

키의 유형. 값의 유형. 허용되는 경우 값으로 null을 사용합니다. Null 값의 비율. 최대 맵 크기. 최소 매핑 크기. 평균 맵 크기. 모든 맵의 크기가 같은 경우.

Null

NullType 은 데이터 타입을 확인할 수 없으므로 이 타입에서 정보를 가져올 수 없으므로 None을 나타냅니다.

Struct

구조체의 메타데이터는 각 structField에 대한 것입니다. name, type, nullable, rows count, rows not null countrows null count 입니다. 배열입니다.

또한 다음 표에 자세히 설명된 각 데이터 타입에 대해 미리 정의된 검증 세트를 정의합니다.

열의 유형에 따라 검사 결과가 수집됨

타입

Pandera 검사 항목

추가 검사 항목

부울

각 값은 True 또는 False입니다.

True 값과 False 값의 개수입니다.

Numeric(byte, short, integer, long, float, double)

각 값은 최소값과 최대값의 범위 내에 있습니다.

소수점 이하 전체 자릿수. 평균값. 표준 편차.

날짜

N/A

최소값 및 최대값

타임스탬프

각 값은 최소값과 최대값의 범위 내에 있습니다.

값의 형식.

Timestamp ntz

각 값은 최소값과 최대값의 범위 내에 있습니다.

값의 형식.

String

각 값의 길이는 최소 및 최대 길이 범위 내에 있습니다.

없음

Char

PySpark 는 리터럴을 문자열 유형으로 처리하므로 char 는 유효한 유형이 아닙니다.

Varchar

PySpark 는 리터럴을 문자열 유형으로 처리하므로 Varchar 는 유효한 유형이 아닙니다.

Decimal

N/A

N/A

배열

N/A

없음

바이너리

N/A

없음

Map

N/A

없음

Null

N/A

N/A

Struct

N/A

없음

이 모드를 사용하면 사용자가 수집할 DataFrame 샘플을 정의할 수 있지만 선택 사항입니다. 기본적으로 컬렉션은 전체 DataFrame 에서 작동합니다. 샘플의 크기는 모집단을 통계적으로 대표할 수 있어야 합니다.

Pandera는 Pandas DataFrame 의 스키마만 유추할 수 있으므로 PySpark DataFrame 을 Pandas DataFrame 으로 변환해야 하며, 이는 열의 유형 확인에 영향을 줄 수 있습니다. 특히 Pandera는 string, array, map, null, structbinary PySpark 유형을 오브젝트 유형으로 유추합니다.

이 모드의 출력은 수집된 각 DataFrame 파일에 대해 JSON 파일이며, 파일 이름은 검사점과 동일합니다. 이 파일에는 스키마와 관련된 정보가 포함되어 있으며 두 개의 섹션으로 구성되어 있습니다.

  1. Pandera 스키마 섹션에는 이름, 타입(Pandas), 열의 null 값 허용 여부, 기타 정보 등 Pandera가 추론한 데이터가 각 열에 대해 포함되어 있으며, 해당 열이 PySpark 타입에 기반한 것인지 확인합니다. Pandera의 DataFrameSchema 오브젝트입니다.

  2. 사용자 지정 데이터 섹션은 PySpark 타입에 따라 각 열에서 수집한 사용자 지정 데이터의 배열입니다.

참고

컬렉션 패키지는 큰 PySpark DataFrames 를 처리할 때 메모리 문제가 있을 수 있습니다. 이 문제를 해결하기 위해 컬렉션 함수의 샘플 매개 변수를 0.0에서 1.0 사이의 값으로 설정하여 전체 PySpark DataFrame 대신 데이터의 하위 세트로 작업할 수 있습니다.

DataFrame 수집 데이터 모드(DataFrame)

이 모드는 PySpark DataFrame 의 데이터를 수집합니다. 이 경우 메커니즘은 주어진 DataFrame 의 모든 데이터를 Parquet 형식으로 저장합니다. 기본 사용자 Snowflake 연결을 사용하여 Parquet 파일을 Snowflake 임시 스테이지에 업로드하고 스테이지의 정보를 기반으로 테이블을 생성하려고 시도합니다. 파일과 테이블의 이름은 검사점과 동일합니다.

이 모드의 출력은 DataFrame 에 저장된 Parquet 파일 결과와 기본 Snowflake 구성 연결의 DataFrame 데이터가 포함된 테이블입니다.