Snowpark Migration Accelerator: Unterstützte Dateitypen

Der Snowpark Migration Accelerator (SMA) durchsucht die Dateien in dem von Ihnen gewählten Verzeichnis während der Projekterstellung. Während einige Dateien aufgrund ihres Typs ausgeschlossen sind, erstellt SMA einen zusammenfassenden Bericht, der die Anzahl der Dateien nach Erweiterung anzeigt.

Das SMA-Tool sucht nach bestimmten Dateierweiterungen, wenn es Verweise auf die Spark API, SQL-Anweisungen und andere Elemente analysiert, die zu den Bereitschaftsbewertungen beitragen. Das Tool kann sowohl Codedateien als auch Noteboos analysieren, die sich in einem beliebigen Verzeichnis oder Unterverzeichnis Ihres Projekts befinden.

Codedateien

Der Snowpark Migration Accelerator scannt die folgenden Dateitypen, um Verweise auf die Spark API und andere Drittanbieter APIs zu identifizieren:

  • Dateien mit der Erweiterung .scala

  • Dateien mit der Erweiterung .py

  • Dateien mit der Erweiterung .python

SQL-Anweisungen, die in Spark SQL oder HiveQL geschrieben sind, können in den folgenden Dateitypen erkannt werden:

  • SQL-Dateien mit der Erweiterung .sql

  • Hive-Abfragesprachdateien mit der Erweiterung .hql

Notebooks

Sowohl die Spark Scala- als auch die PySpark-Parser im Snowpark Migration Accelerator (SMA) scannen und verarbeiten automatisch Jupyter Notebook-Dateien und exportierte Databricks-Dateien, wenn sie im Verzeichnis des Quellcodes vorhanden sind.

  • Jupyter Notebook-Dateien (*. ipynb)

  • Databricks Notebook-Dateien (*. dbc)

Der SMA wird die Notebook-Dateien analysieren, um sie zu identifizieren:

  • Referenzen zur Spark API

  • Referenzen zu Drittanbieter-APIs

  • SQL-Anweisungen

Die Analyse wird auf der Grundlage des Zelltyps in jedem Notebook durchgeführt. Notebooks können eine Mischung aus SQL, Python und Scala Zellen enthalten. Der SMA erstellt in ihrem Ausgabebericht ein Inventar aller Zelltypen.

Ausgeschlossene Dateien und Ordner

Standardmäßig sind bestimmte Dateien und Ordner vom Scannen ausgeschlossen. Diese Ausschlüsse bestehen hauptsächlich aus Projektkonfigurationsdateien und den dazugehörigen Verzeichnissen.

Vom Scannen ausgeschlossene Ordnertypen:

  • Python Package Installer (pip) - Ein Tool zur Installation von Python-Paketen

  • Distributionspakete (dist) - Ein Verzeichnis mit Python-Paketen, die zur Verteilung bereitstehen

  • Virtuelle Umgebung (venv) - Eine isolierte Python-Umgebung zur Verwaltung von Projektabhängigkeiten

  • Site Packages - Ein Verzeichnis, in dem Python-Pakete zur Verwendung im gesamten System installiert sind

Vom Scannen ausgeschlossener Dateitypen:

  • input.wsp - Workspace-Eingabedatei

  • .DS_Store - macOS-Systemdatei, die benutzerdefinierte Ordnerattribute speichert

  • build.gradle - Gradle Build-Konfigurationsdatei

  • build.sbt - Konfigurationsdatei für das Scala Build Tool

  • pom.xml - Maven Project Object Model Konfigurationsdatei

  • storage.lck - Datei zur Sperre des Speichers