Ausführen von Spark-Workloads über Snowflake Notebooks

Sie können Spark-Workloads interaktiv von Snowflake Notebooks aus ausführen, ohne einen Spark-Cluster verwalten zu müssen. Die Workloads werden auf der Snowflake-Infrastruktur ausgeführt.

So verwenden Sie Snowflake Notebooks als Client für die Entwicklung von Spark-Workloads für die Ausführung auf Snowflake:

  1. Starten Sie Snowflake Notebooks.

  2. Starten Sie im Notizbuch eine Spark-Sitzung.

  3. Verfassen Sie PySpark-Code zum Laden, Transformieren und Analysieren von Daten – z. B. zum Filtern von hochwertigen Kundenaufträgen oder zum Aggregieren von Umsätzen.

Verwenden eines Notizbuchs in Snowflake, das auf einem Warehouse läuft

Weitere Informationen zu Snowflake Notebooks finden Sie unter Notebook erstellen.

  1. Erstellen Sie ein Snowflake-Notizbuch, indem Sie die folgenden Schritte ausführen:

    1. Melden Sie sich bei Snowsight an.

    2. Wählen Sie im Navigationsmenü + Create » Notebook » New Notebook.

    3. Geben Sie im Dialogfeld Create notebook einen Namen, eine Datenbank und ein Schema für das neue Notizbuch ein.

      Weitere Informationen dazu finden Sie unter Notebook erstellen.

    4. Wählen Sie unter Runtime die Option Run on warehouse aus.

    5. Wählen Sie unter Runtime version die Option Snowflake Warehouse Runtime 2.0 aus.

      Wenn Sie Version 2.0 auswählen, stellen Sie sicher, dass Sie über die benötigte Unterstützung für die Abhängigkeiten verfügen, einschließlich Python 3.10. Weitere Informationen dazu finden Sie unter Notebook-Laufzeiten.

    6. Wählen Sie für Query warehouse und Notebook warehouse`Warehouses für die Ausführung von Abfragecode, Kernel und Python-Code aus, wie unter :doc:/user-guide/ui-snowsight/notebooks-create` beschrieben.

    7. Wählen Sie Create aus.

    8. Stellen Sie in dem von Ihnen erstellten Notizbuch unter Packages sicher, dass die folgenden Pakete zur Unterstützung von Code in Ihrem Notizbuch aufgeführt sind:

      • Python ab Version 3.10

      • snowflake-dataframe-processor, neueste Version

        Wenn Sie diese Pakete hinzufügen müssen, führen Sie die folgenden Schritte aus:

        1. Geben Sie unter Anaconda Packages den Namen des Pakets in das Suchfeld ein.

        2. Wählen Sie den Namen des Pakets aus.

        3. Wählen Sie Save aus.

  2. Um eine Verbindung zum Snowpark Connect for Spark-Server herzustellen und die Verbindung zu testen, kopieren Sie den folgenden Code und fügen Sie ihn in die Python-Zelle des von Ihnen erstellten Notizbuchs ein:

    # Set up the env for Java libraries and enable the Spark Connect Mode
    
    import os
    
    os.environ['JAVA_HOME'] = os.environ["CONDA_PREFIX"]
    os.environ['JAVA_LD_LIBRARY_PATH'] = os.path.join(os.environ["CONDA_PREFIX"], 'lib', 'server')
    os.environ["SPARK_LOCAL_HOSTNAME"] = "127.0.0.1"
    os.environ["SPARK_CONNECT_MODE_ENABLED"] = "1"
    
    from snowflake import snowpark_connect
    from snowflake.snowpark.context import get_active_session
    import traceback
    
    session = get_active_session()
    snowpark_connect.start_session(snowpark_session = session)
    
    Copy
  3. Um eine neue Zelle für Python-Code hinzuzufügen, bewegen Sie den Mauszeiger über die Zelle mit dem gerade eingefügten Code, und wählen Sie dann + Python.

  4. Zum Ausführen des Codes, der Snowpark Connect for Spark verwendet, kopieren Sie den folgenden Code, und fügen Sie ihn dann in die neu hinzugefügte Python-Zelle ein.

    # Here is your normal pyspark code. You can of course have them in other Python Cells
    spark = snowpark_connect.get_session()
    df = spark.sql("show schemas").limit(10)
    df.show()
    
    Copy