Sparkバッチワークロードを Snowpark Submit から実行する

なじみのあるSparkセマンティクスを使用しながら、Snowflakeのインフラストラクチャで非インタラクティブな非同期方法でSparkワークロードを直接実行できます。Snowpark Submit を使用すると、実稼働対応のSparkアプリケーション(ETL パイプラインやスケジュールされたデータ変換など)を単純な CLI インターフェースを使用して送信できます。この方法で、専用のSparkクラスターを必要とせず既存のSpark開発ワークフローを維持できます。

たとえば、PySparkETL スクリプトをパッケージ化してから、|spsubmit|CLI を使用して |spcs| コンテナでバッチジョブとしてスクリプトを実行できます。このメソッドにより、Apache Airflowや CI/CD ツールを使用して夜間のデータパイプラインを自動化できます。Sparkコードは、Snowpark Container Services のクラスターモードで実行され、組み込みの依存関係とリソース管理によりシームレスにスケーリングします。

使用中の Snowpark Submit の例については、Snowpark Submit 例 をご参照ください。

Snowpark Connect for Spark を使用して、Snowpark Submit はSnowflakeでSparkワークロードを実行します。Snowpark Connect for Spark の詳細については、 Snowpark Connect for Spark を使用してSnowflakeでSparkワークロードを実行します。 をご参照ください。

Snowpark Submit には次のようなメリットがあります。

  • 外部でのSparkのセットアップを必要とせず、Snowflakeが管理するインフラストラクチャにおいてクラスターモードで稼働できる機能

  • ワークフロー統合、CI/CD パイプラインによる自動化のサポート、Apache Airflow、またはcronベースのスケジューリング

  • Pythonのサポートにより、言語間で既存のSparkアプリケーションを再利用可能にする

  • 外部Pythonモジュールまたは JARs のパッケージ化のサポートによる依存関係の管理

注釈

snowpark-submit は、spark-submit と同じ機能の多くをサポートしています。ただし、SnowflakeでSparkワークロードを実行する場合に必要ないため、一部の機能は省略されています。

Snowpark Submit 入門

Snowpark Submit の使用を開始するには、次のステップに従います。

  1. Snowpark Submit をインストールする のステップに従って、Snowpark Submit をインストールします。

  2. Snowpark Submit 例 をご覧ください。

  3. Snowpark Submit の使用方法については Snowpark Submit リファレンス をご覧ください。