Snowpark Migration Accelerator: サポートされるファイルタイプ

Snowpark Migration Accelerator(SMA)は、プロジェクト作成時に選択したソースディレクトリ内のファイルをスキャンします。いくつかのファイルはそのタイプに基づいて、 除外 されますが、 SMA は、拡張子ごとのファイル数を示す概要レポートを生成します。

SMA ツールは、Spark API、 SQL ステートメント、および レディネススコアに貢献するその他の要素 への参照を分析する際に、特定のファイル拡張子を検索します。このツールは、プロジェクトの任意のディレクトリまたはサブディレクトリにあるコードファイルとノートブックの両方を分析できます。

コードファイル

Snowpark Migration Acceleratorは以下のファイルタイプをスキャンして、Spark API およびその他のサードパーティ APIs への参照を識別します。

  • 拡張子が.scalaのファイル

  • 拡張子が.pyのファイル

  • 拡張子が.pythonのファイル

SQL Sparkまたは SQL HiveQL で記述されたステートメントは、以下のファイルタイプで検出できます。

  • SQL 拡張子が.sqlのファイル

  • 拡張子.hqlを持つHiveクエリ言語ファイル

Notebooks

Snowpark Migration Accelerator(SMA)のSpark Scalaパーサーと PySpark パーサーの両方は、Jupyter NotebookファイルとエクスポートされたDatabricksファイルがソースコードディレクトリに存在する場合、自動的にスキャンして処理します。

  • Jupyter Notebookファイル(*.ipynb)

  • Databricks Notebookファイル(*.dbc)

SMA はノートブックファイルを分析して識別します。

  • Spark API への参照

  • 他のサードパーティ APIs への参照

  • SQL ステートメント

分析は、各ノートブック内のセルタイプに基づいて実行されます。ノートブックには、 SQL、Python、Scalaのセルを混在させることができます。SMA は、すべてのセルタイプの インベントリ を出力レポートに作成します。

除外ファイルとフォルダー

デフォルトでは、特定のファイルやフォルダーはスキャンから除外されます。これらの除外は、主にプロジェクト構成ファイルとその関連ディレクトリで構成されます。

スキャンから除外されるフォルダーのタイプ:

  • Pythonパッケージインストーラー(pip) - Pythonパッケージをインストールするツール。

  • 配布パッケージ(dist) - Pythonパッケージを含むディレクトリ。

  • 仮想環境(venv) - プロジェクトの依存関係を管理するための隔離されたPython環境。

  • サイトパッケージ - システム全体で使用するためにPythonパッケージがインストールされるディレクトリ。

スキャンから除外されるファイルのタイプ:

  • input.wsp - ワークスペース入力ファイル

  • .DS_Store - macOS カスタムフォルダーの属性を格納するシステムファイル。

  • build.gradle - Gradleビルドの構成ファイル

  • build.sbt - Scalaビルドツールの構成ファイル。

  • pom.xml - Mavenプロジェクトオブジェクトモデルの構成ファイル

  • storage.lck - ストレージロックファイル