Snowpark Migration Accelerator: サポートされるファイルタイプ

The Snowpark Migration Accelerator (SMA) scans files in your selected source directory during project creation. While some files are excluded based on their type, SMA generates a summary report showing the count of files by extension.

The SMA tool searches for specific file extensions when analyzing references to the Spark API, SQL Statements, and other elements that contribute to the Readiness Scores. The tool can analyze both code files and notebooks located in any directory or subdirectory of your project.

コードファイル

Snowpark Migration Acceleratorは以下のファイルタイプをスキャンして、Spark API およびその他のサードパーティ APIs への参照を識別します。

  • 拡張子が.scalaのファイル

  • 拡張子が.pyのファイル

  • 拡張子が.pythonのファイル

SQL Sparkまたは SQL HiveQL で記述されたステートメントは、以下のファイルタイプで検出できます。

  • SQL 拡張子が.sqlのファイル

  • 拡張子.hqlを持つHiveクエリ言語ファイル

Notebooks

Snowpark Migration Accelerator(SMA)のSpark Scalaパーサーと PySpark パーサーの両方は、Jupyter NotebookファイルとエクスポートされたDatabricksファイルがソースコードディレクトリに存在する場合、自動的にスキャンして処理します。

  • Jupyter Notebook files (*.ipynb)

  • Databricks Notebook files (*.dbc)

SMA はノートブックファイルを分析して識別します。

  • Spark API への参照

  • 他のサードパーティ APIs への参照

  • SQL ステートメント

The analysis is performed based on the cell type within each notebook. Notebooks can contain a mix of SQL, Python, and Scala cells. The SMA will create an inventory of all cell types in its output report.

除外ファイルとフォルダー

デフォルトでは、特定のファイルやフォルダーはスキャンから除外されます。これらの除外は、主にプロジェクト構成ファイルとその関連ディレクトリで構成されます。

スキャンから除外されるフォルダーのタイプ:

  • Pythonパッケージインストーラー(pip) - Pythonパッケージをインストールするツール。

  • 配布パッケージ(dist) - Pythonパッケージを含むディレクトリ。

  • 仮想環境(venv) - プロジェクトの依存関係を管理するための隔離されたPython環境。

  • サイトパッケージ - システム全体で使用するためにPythonパッケージがインストールされるディレクトリ。

スキャンから除外されるファイルのタイプ:

  • input.wsp - ワークスペース入力ファイル

  • .DS_Store - macOS カスタムフォルダーの属性を格納するシステムファイル。

  • build.gradle - Gradleビルドの構成ファイル

  • build.sbt - Scalaビルドツールの構成ファイル。

  • pom.xml - Mavenプロジェクトオブジェクトモデルの構成ファイル

  • storage.lck - ストレージロックファイル