Snowpark Migration Accelerator: Unterstützte Dateitypen¶
Der Snowpark Migration Accelerator (SMA) durchsucht die Dateien in dem von Ihnen gewählten Verzeichnis während der Projekterstellung. Während einige Dateien aufgrund ihres Typs ausgeschlossen sind, erstellt SMA einen zusammenfassenden Bericht, der die Anzahl der Dateien nach Erweiterung anzeigt.
Das SMA-Tool sucht nach bestimmten Dateierweiterungen, wenn es Verweise auf die Spark API, SQL-Anweisungen und andere Elemente analysiert, die zu den Bereitschaftsbewertungen beitragen. Das Tool kann sowohl Codedateien als auch Noteboos analysieren, die sich in einem beliebigen Verzeichnis oder Unterverzeichnis Ihres Projekts befinden.
Codedateien¶
Der Snowpark Migration Accelerator scannt die folgenden Dateitypen, um Verweise auf die Spark API und andere Drittanbieter APIs zu identifizieren:
Dateien mit der Erweiterung .scala
Dateien mit der Erweiterung .py
Dateien mit der Erweiterung .python
SQL-Anweisungen, die in Spark SQL oder HiveQL geschrieben sind, können in den folgenden Dateitypen erkannt werden:
SQL-Dateien mit der Erweiterung .sql
Hive-Abfragesprachdateien mit der Erweiterung .hql
Notebooks¶
Sowohl die Spark Scala- als auch die PySpark-Parser im Snowpark Migration Accelerator (SMA) scannen und verarbeiten automatisch Jupyter Notebook-Dateien und exportierte Databricks-Dateien, wenn sie im Verzeichnis des Quellcodes vorhanden sind.
Jupyter Notebook-Dateien (*. ipynb)
Databricks Notebook-Dateien (*. dbc)
Der SMA wird die Notebook-Dateien analysieren, um sie zu identifizieren:
Referenzen zur Spark API
Referenzen zu Drittanbieter-APIs
SQL-Anweisungen
Die Analyse wird auf der Grundlage des Zelltyps in jedem Notebook durchgeführt. Notebooks können eine Mischung aus SQL, Python und Scala Zellen enthalten. Der SMA erstellt in ihrem Ausgabebericht ein Inventar aller Zelltypen.
Ausgeschlossene Dateien und Ordner¶
Standardmäßig sind bestimmte Dateien und Ordner vom Scannen ausgeschlossen. Diese Ausschlüsse bestehen hauptsächlich aus Projektkonfigurationsdateien und den dazugehörigen Verzeichnissen.
Vom Scannen ausgeschlossene Ordnertypen:¶
Python Package Installer (pip) - Ein Tool zur Installation von Python-Paketen
Distributionspakete (dist) - Ein Verzeichnis mit Python-Paketen, die zur Verteilung bereitstehen
Virtuelle Umgebung (venv) - Eine isolierte Python-Umgebung zur Verwaltung von Projektabhängigkeiten
Site Packages - Ein Verzeichnis, in dem Python-Pakete zur Verwendung im gesamten System installiert sind
Vom Scannen ausgeschlossener Dateitypen:¶
input.wsp - Workspace-Eingabedatei
.DS_Store - macOS-Systemdatei, die benutzerdefinierte Ordnerattribute speichert
build.gradle - Gradle Build-Konfigurationsdatei
build.sbt - Konfigurationsdatei für das Scala Build Tool
pom.xml - Maven Project Object Model Konfigurationsdatei
storage.lck - Datei zur Sperre des Speichers