Execução de cargas de trabalho do Spark por meio dos notebooks Snowflake

É possível executar cargas de trabalho do Spark interativamente por meio do Snowflake Notebooks sem precisar gerenciar um cluster do Spark. As cargas de trabalho são executadas na infraestrutura do Snowflake.

Para usar o Snowflake Notebooks como um cliente para desenvolver cargas de trabalho do Spark para execução no Snowflake:

  1. Como usar o Snowflake Notebooks

  2. No notebook, inicie uma sessão do Spark.

  3. Escreva código PySpark para carregar, transformar e analisar dados, como para filtrar pedidos de clientes de alto valor ou agregar receita.

Uso de um notebook Snowflake executado em um warehouse

Para obter mais informações sobre os notebooks Snowflake, consulte Criação de um notebook.

  1. Crie um notebook Snowflake concluindo as seguintes etapas:

    1. Faça login no Snowsight.

    2. No menu de navegação, selecione + Create > ».

    3. Na caixa de diálogo Create notebook, insira um nome, banco de dados e esquema para o novo notebook.

      Para obter mais informações, consulte Criação de um notebook.

    4. Para Runtime, selecione Run on warehouse.

    5. Para Runtime version, selecione Snowflake Warehouse Runtime 2.0.

      Ao selecionar a versão 2.0, você garante que terá o suporte de dependência necessário, incluindo Python 3.10. Para obter mais informações, consulte Tempos de execução do notebook.

    6. Para Query warehouse e Notebook warehouse, selecione warehouses para executar o código de consulta e o código kernel e Python, conforme descrito em Criação de um notebook.

    7. Selecione Create.

    8. No notebook que você criou, em Packages, certifique-se de ter os seguintes pacotes listados para oferecer suporte ao código em seu notebook:

      • Python versão 3.10 ou mais recente.

      • snowflake-dataframe-processor, versão mais recente

        Se você precisar adicionar esses pacotes, siga estas etapas:

        1. Em Anaconda Packages, digite o nome do pacote na caixa de pesquisa.

        2. Selecione o nome do pacote.

        3. Selecione Save.

  2. Para conectar-se ao servidor Snowpark Connect for Spark e testar a conexão, copie o código a seguir e cole-o na célula Python do notebook que você criou:

    # Set up the env for Java libraries and enable the Spark Connect Mode
    
    import os
    
    os.environ['JAVA_HOME'] = os.environ["CONDA_PREFIX"]
    os.environ['JAVA_LD_LIBRARY_PATH'] = os.path.join(os.environ["CONDA_PREFIX"], 'lib', 'server')
    os.environ["SPARK_LOCAL_HOSTNAME"] = "127.0.0.1"
    os.environ["SPARK_CONNECT_MODE_ENABLED"] = "1"
    
    from snowflake import snowpark_connect
    from snowflake.snowpark.context import get_active_session
    import traceback
    
    session = get_active_session()
    snowpark_connect.start_session(snowpark_session = session)
    
    Copy
  3. Para adicionar uma nova célula para o código Python, passe o mouse sobre a célula que contém o código que você acabou de colar e selecione + Python .

  4. Para executar o código que usa Snowpark Connect for Spark, copie o código a seguir e cole-o na nova célula Python que você adicionou.

    # Here is your normal pyspark code. You can of course have them in other Python Cells
    spark = snowpark_connect.get_session()
    df = spark.sql("show schemas").limit(10)
    df.show()
    
    Copy