Snowpark Migration Accelerator: 지원되는 파일 유형

Snowpark Migration Accelerator(SMA)는 프로젝트 생성 중에 선택한 소스 디렉터리에서 파일을 스캔합니다. 일부 파일은 파일 유형에 따라 제외됨 형식으로 분류되지만, SMA 는 확장자별로 파일 수를 표시하는 요약 보고서를 생성합니다.

SMA 도구는 Spark API, SQL 문과 준비도 점수에 기여하는 기타 요소에 대한 참조를 분석할 때 특정 파일 확장자를 검색합니다. 이 도구는 프로젝트의 모든 디렉터리 또는 하위 디렉터리에 위치한 코드 파일과 노트북을 모두 분석할 수 있습니다.

코드 파일

Snowpark Migration Accelerator는 다음 파일 유형을 스캔하여 Spark API 및 기타 서드 파티 APIs 에 대한 참조를 식별합니다.

  • 확장자 확장자가 .scala 인 파일

  • 확장자가 .py인 파일

  • 확장자가 .python인 파일

Spark SQL SQL 또는 HiveQL 로 작성된 문은 다음 파일 유형에서 감지할 수 있습니다.

  • SQL 확장자가 .sql인 파일

  • 확장자가 .hql인 Hive 쿼리 언어 파일

Notebooks

Snowpark Migration Accelerator(SMA)의 Spark Scala 및PySpark 구문 분석기는 모두 소스 코드 디렉터리에 Jupyter Notebook 파일과 내보낸 Databricks 파일이 있을 때 자동으로 스캔하고 처리합니다.

  • Jupyter Notebook 파일(*.ipynb)

  • Databricks 노트북 파일(* .dbc)

SMA 가 노트북 파일을 분석해 식별자를 찾아냅니다.

  • Spark API 에 대한 참고 자료

  • 기타 서드 파티 APIs 에 대한 참조

  • SQL 문

분석은 각 노트북 내의 셀 유형에 따라 수행됩니다. Notebooks에는 SQL, Python, Scala 셀이 혼합되어 있을 수 있습니다. SMA 는 출력 보고서에 모든 셀 유형의 인벤토리를 생성합니다.

제외된 파일 및 폴더

기본적으로 특정 파일과 폴더는 스캔에서 제외됩니다. 이러한 제외 대상은 주로 프로젝트 구성 파일과 관련 디렉터리로 구성됩니다.

폴더 유형은 스캔에서 제외됩니다.

  • Python 패키지 설치 관리자(pip) - Python 패키지 설치 도구

  • 배포 패키지(dist) - 배포할 준비가 된 Python 패키지가 들어있는 디렉터리입니다

  • 가상 환경(venv) - 프로젝트 종속성을 관리하기 위한 격리된 Python 환경

  • 사이트-패키지 - 시스템 전체에서 사용하기 위해 Python 패키지가 설치되는 디렉터리입니다

검사에서 제외된 파일 유형입니다.

  • input.wsp - 워크스페이스 입력 파일

  • .DS_Store - 사용자 정의 폴더 특성을 저장하는 macOS 시스템 파일

  • build.gradle - Gradle 빌드 구성 파일

  • build.sbt - Scala 빌드 도구 구성 파일

  • pom.xml - Maven 프로젝트 오브젝트 모델 구성 파일

  • storage.lck - 저장소 잠금 파일