Snowpark Migration Accelerator: Unterstützte Dateitypen¶
The Snowpark Migration Accelerator (SMA) scans files in your selected source directory during project creation. While some files are excluded based on their type, SMA generates a summary report showing the count of files by extension.
The SMA tool searches for specific file extensions when analyzing references to the Spark API, SQL Statements, and other elements that contribute to the Readiness Scores. The tool can analyze both code files and notebooks located in any directory or subdirectory of your project.
Codedateien¶
Der Snowpark Migration Accelerator scannt die folgenden Dateitypen, um Verweise auf die Spark API und andere Drittanbieter APIs zu identifizieren:
Dateien mit der Erweiterung .scala
Dateien mit der Erweiterung .py
Dateien mit der Erweiterung .python
SQL-Anweisungen, die in Spark SQL oder HiveQL geschrieben sind, können in den folgenden Dateitypen erkannt werden:
SQL-Dateien mit der Erweiterung .sql
Hive-Abfragesprachdateien mit der Erweiterung .hql
Notebooks¶
Sowohl die Spark Scala- als auch die PySpark-Parser im Snowpark Migration Accelerator (SMA) scannen und verarbeiten automatisch Jupyter Notebook-Dateien und exportierte Databricks-Dateien, wenn sie im Verzeichnis des Quellcodes vorhanden sind.
Jupyter Notebook files (
*.ipynb)Databricks Notebook files (
*.dbc)
Der SMA wird die Notebook-Dateien analysieren, um sie zu identifizieren:
Referenzen zur Spark API
Referenzen zu Drittanbieter-APIs
SQL-Anweisungen
The analysis is performed based on the cell type within each notebook. Notebooks can contain a mix of SQL, Python, and Scala cells. The SMA will create an inventory of all cell types in its output report.
Ausgeschlossene Dateien und Ordner¶
Standardmäßig sind bestimmte Dateien und Ordner vom Scannen ausgeschlossen. Diese Ausschlüsse bestehen hauptsächlich aus Projektkonfigurationsdateien und den dazugehörigen Verzeichnissen.
Vom Scannen ausgeschlossene Ordnertypen:¶
Python Package Installer (pip) - Ein Tool zur Installation von Python-Paketen
Distributionspakete (dist) - Ein Verzeichnis mit Python-Paketen, die zur Verteilung bereitstehen
Virtuelle Umgebung (venv) - Eine isolierte Python-Umgebung zur Verwaltung von Projektabhängigkeiten
Site Packages - Ein Verzeichnis, in dem Python-Pakete zur Verwendung im gesamten System installiert sind
Vom Scannen ausgeschlossener Dateitypen:¶
input.wsp - Workspace-Eingabedatei
.DS_Store - macOS-Systemdatei, die benutzerdefinierte Ordnerattribute speichert
build.gradle - Gradle Build-Konfigurationsdatei
build.sbt - Konfigurationsdatei für das Scala Build Tool
pom.xml - Maven Project Object Model Konfigurationsdatei
storage.lck - Datei zur Sperre des Speichers