Snowflake NotebooksからSparkワークロードを実行¶

Sparkクラスターを管理することなく、Snowflake NotebooksからSparkワークロードをインタラクティブに実行できます。ワークロードはSnowflakeインフラストラクチャ上で実行されます。

Snowflake上で実行するSparkワークロードを開発するために、Snowflake Notebooksをクライアントとして使用するには：

Snowflake Notebooksの使用
ノートブック内で、Sparkセッションを開始します。
価値の高い顧客の注文をフィルタリングしたり、収益を集計したりするなど、データをロード、変換、分析するために、 PySpark コードを書き込みます。

ウェアハウス上で動作するSnowflake Notebookを使用する¶

Snowflake Notebooksの詳細については、ノートブックを作成するをご参照ください。

次の手順を実行して、Snowflake Notebooksを作成します。
1. Snowsight にサインインします。
2. ナビゲーションメニューの上部で、（Create）|raa| Notebook » New Notebook を選択します。
3. Create notebook ダイアログで、新しいノートブックの名前、データベース、スキーマを入力します。
  
  詳細については、ノートブックを作成するをご参照ください。
4. Runtime には、 Run on warehouse を選択します。
5. Runtime version には、 Snowflake Warehouse Runtime 2.0 を選択します。
  
  バージョン2.0を選択すると、 Python 3.10など、必要な依存関係のサポートがあることを確認できます。詳細については、 Notebookランタイムをご参照ください。
6. ノートブックを作成するで説明されているように、Query warehouse および :ui:`Notebook warehouse`で、クエリコードとカーネルとPythonコードを実行するウェアハウスを選択します。
7. Create を選択します。
8. 作成したノートブックの :ui:`Packages`内に、ノートブックでコードをサポートするため以下のパッケージがリストされていることを確認してください。
  - Pythonバージョン3.10以降。
  - snowpark-connect、最新バージョン
    
    これらのパッケージを追加する必要がある場合は、以下のステップを実行します。
    1. :ui:`Anaconda Packages`で、検索ボックスにパッケージ名を入力します。
    2. パッケージ名を選択します。
    3. Save を選択します。
Snowpark Connect for Spark サーバーに接続してテストするには、以下のコードをコピーして、作成したノートブックのPythonセルに貼り付けます。
```
from snowflake import snowpark_connect

spark = snowpark_connect.server.init_spark_session()
df = spark.sql("show schemas").limit(10)
df.show()
```
Copy