Snowpark Migration Accelerator: Tipos de arquivos suportados

O Snowpark Migration Accelerator (SMA) verifica os arquivos no diretório de origem selecionado durante a criação do projeto. Embora alguns arquivos sejam excluídos com base em seu tipo, o SMA gera um relatório resumido que mostra a contagem de arquivos por extensão.

A ferramenta SMA procura por extensões de arquivo específicas ao analisar referências ao Spark API, instruções SQL e outros elementos que contribuem para as pontuações de preparação Snowpark Migration Accelerator: Pontuações de preparação. A ferramenta pode analisar tanto os arquivos de código quanto os notebooks localizados em qualquer diretório ou subdiretório do seu projeto.

Arquivos de código

O Snowpark Migration Accelerator examina os seguintes tipos de arquivos para identificar referências ao Spark API e a APIs de terceiros:

  • Arquivos com a extensão .scala

  • Arquivos com a extensão .py

  • Arquivos com a extensão .python

Instruções SQL escritas em Spark SQL ou HiveQL podem ser detectadas nos seguintes tipos de arquivo:

  • Arquivos SQL com a extensão .sql

  • Arquivos Hive Query Language com a extensão .hql

Notebooks

Os analisadores Spark Scala e PySpark no Snowpark Migration Accelerator (SMA) verificam e processam automaticamente os arquivos do Jupyter Notebook e os arquivos exportados do Databricks quando eles estão presentes no diretório do código-fonte.

  • Arquivos do Jupyter Notebook (*. ipynb)

  • Arquivos do Databricks Notebook (*. dbc)

O SMA analisará os arquivos do notebook para identificar:

  • Referências ao Spark API

  • Referências a APIs de terceiros

  • Instruções SQL

A análise é realizada com base no tipo de célula em cada notebook. Os notebooks podem conter uma mistura de células SQL, Python e Scala. O SMA criará um inventário de todos os tipos de células em seu relatório de saída.

Arquivos e pastas excluídos

Por padrão, determinados arquivos e pastas são excluídos da varredura. Essas exclusões consistem principalmente em arquivos de configuração do projeto e seus diretórios associados.

Tipo de pastas excluídas da verificação:

  • Instalador de pacotes Python (pip) - Uma ferramenta para instalar pacotes Python

  • Pacotes de distribuição (dist) - Um diretório que contém pacotes Python prontos para distribuição

  • Ambiente virtual (venv) - Um ambiente Python isolado para gerenciar as dependências do projeto

  • Site-packages - Um diretório no qual os pacotes Python são instalados para uso em todo o sistema

Tipo de arquivo excluído da varredura:

  • input.wsp - Arquivo de entrada do espaço de trabalho

  • .DS_Store - arquivo de sistema macOS que armazena atributos de pasta personalizados

  • build.gradle - Arquivo de configuração de compilação do Gradle

  • build.sbt - Arquivo de configuração da ferramenta de compilação Scala

  • pom.xml - Arquivo de configuração do Modelo de Objeto do Projeto Maven

  • storage.lck - Arquivo de bloqueio de armazenamento