Execução de cargas de trabalho do Spark por meio dos notebooks Snowflake¶

É possível executar cargas de trabalho do Spark interativamente por meio do Snowflake Notebooks sem precisar gerenciar um cluster do Spark. As cargas de trabalho são executadas na infraestrutura do Snowflake.

Para usar o Snowflake Notebooks como um cliente para desenvolver cargas de trabalho do Spark para execução no Snowflake:

Como usar o Snowflake Notebooks
No notebook, inicie uma sessão do Spark.
Escreva código PySpark para carregar, transformar e analisar dados, como para filtrar pedidos de clientes de alto valor ou agregar receita.

Uso de um notebook Snowflake executado em um warehouse¶

Para obter mais informações sobre os notebooks Snowflake, consulte Criação de um notebook.

Crie um notebook Snowflake concluindo as seguintes etapas:
1. Faça login na Snowsight.
2. Na parte superior do menu de navegação, selecione (Create) » Notebook » New Notebook.
3. Na caixa de diálogo Create notebook, insira um nome, banco de dados e esquema para o novo notebook.
  
  Para obter mais informações, consulte Criação de um notebook.
4. Para Runtime, selecione Run on warehouse.
5. Para Runtime version, selecione Snowflake Warehouse Runtime 2.0.
  
  Ao selecionar a versão 2.0, você garante que terá o suporte de dependência necessário, incluindo Python 3.10. Para obter mais informações, consulte Tempos de execução do notebook.
6. Para Query warehouse e Notebook warehouse, selecione warehouses para executar o código de consulta e o código kernel e Python, conforme descrito em Criação de um notebook.
7. Selecione Create.
8. No notebook que você criou, em Packages, certifique-se de ter os seguintes pacotes listados para oferecer suporte ao código em seu notebook:
  - Python versão 3.10 ou mais recente.
  - snowpark-connect, versão mais recente
    
    Se você precisar adicionar esses pacotes, siga estas etapas:
    1. Em Anaconda Packages, digite o nome do pacote na caixa de pesquisa.
    2. Selecione o nome do pacote.
    3. Selecione Save.
Para conectar-se ao servidor Snowpark Connect for Spark e testar a conexão, copie o código a seguir e cole-o na célula Python do notebook que você criou:
```
from snowflake import snowpark_connect

spark = snowpark_connect.server.init_spark_session()
df = spark.sql("show schemas").limit(10)
df.show()
```
Copy