Snowpark Migration Accelerator: Unterstützte Dateitypen

The Snowpark Migration Accelerator (SMA) scans files in your selected source directory during project creation. While some files are excluded based on their type, SMA generates a summary report showing the count of files by extension.

The SMA tool searches for specific file extensions when analyzing references to the Spark API, SQL Statements, and other elements that contribute to the Readiness Scores. The tool can analyze both code files and notebooks located in any directory or subdirectory of your project.

Codedateien

Der Snowpark Migration Accelerator scannt die folgenden Dateitypen, um Verweise auf die Spark API und andere Drittanbieter APIs zu identifizieren:

  • Dateien mit der Erweiterung .scala

  • Dateien mit der Erweiterung .py

  • Dateien mit der Erweiterung .python

SQL-Anweisungen, die in Spark SQL oder HiveQL geschrieben sind, können in den folgenden Dateitypen erkannt werden:

  • SQL-Dateien mit der Erweiterung .sql

  • Hive-Abfragesprachdateien mit der Erweiterung .hql

Notebooks

Sowohl die Spark Scala- als auch die PySpark-Parser im Snowpark Migration Accelerator (SMA) scannen und verarbeiten automatisch Jupyter Notebook-Dateien und exportierte Databricks-Dateien, wenn sie im Verzeichnis des Quellcodes vorhanden sind.

  • Jupyter Notebook files (*.ipynb)

  • Databricks Notebook files (*.dbc)

Der SMA wird die Notebook-Dateien analysieren, um sie zu identifizieren:

  • Referenzen zur Spark API

  • Referenzen zu Drittanbieter-APIs

  • SQL-Anweisungen

The analysis is performed based on the cell type within each notebook. Notebooks can contain a mix of SQL, Python, and Scala cells. The SMA will create an inventory of all cell types in its output report.

Ausgeschlossene Dateien und Ordner

Standardmäßig sind bestimmte Dateien und Ordner vom Scannen ausgeschlossen. Diese Ausschlüsse bestehen hauptsächlich aus Projektkonfigurationsdateien und den dazugehörigen Verzeichnissen.

Vom Scannen ausgeschlossene Ordnertypen:

  • Python Package Installer (pip) - Ein Tool zur Installation von Python-Paketen

  • Distributionspakete (dist) - Ein Verzeichnis mit Python-Paketen, die zur Verteilung bereitstehen

  • Virtuelle Umgebung (venv) - Eine isolierte Python-Umgebung zur Verwaltung von Projektabhängigkeiten

  • Site Packages - Ein Verzeichnis, in dem Python-Pakete zur Verwendung im gesamten System installiert sind

Vom Scannen ausgeschlossener Dateitypen:

  • input.wsp - Workspace-Eingabedatei

  • .DS_Store - macOS-Systemdatei, die benutzerdefinierte Ordnerattribute speichert

  • build.gradle - Gradle Build-Konfigurationsdatei

  • build.sbt - Konfigurationsdatei für das Scala Build Tool

  • pom.xml - Maven Project Object Model Konfigurationsdatei

  • storage.lck - Datei zur Sperre des Speichers