Sparkバッチワークロードを Snowpark Submit から実行する¶
なじみのあるSparkセマンティクスを使用しながら、Snowflakeのインフラストラクチャで非インタラクティブな非同期方法でSparkワークロードを直接実行できます。Snowpark Submit を使用すると、実稼働対応のSparkアプリケーション(ETL パイプラインやスケジュールされたデータ変換など)を単純な CLI インターフェースを使用して送信できます。この方法で、専用のSparkクラスターを必要とせず既存のSpark開発ワークフローを維持できます。
たとえば、PySparkETL スクリプトをパッケージ化してから、|spsubmit|CLI を使用して |spcs| コンテナでバッチジョブとしてスクリプトを実行できます。このメソッドにより、Apache Airflowや CI/CD ツールを使用して夜間のデータパイプラインを自動化できます。Sparkコードは、Snowpark Container Services のクラスターモードで実行され、組み込みの依存関係とリソース管理によりシームレスにスケーリングします。
使用中の Snowpark Submit の例については、Snowpark Submit 例 をご参照ください。
Snowpark Connect for Spark を使用して、Snowpark Submit はSnowflakeでSparkワークロードを実行します。Snowpark Connect for Spark の詳細については、 Snowpark Connect for Spark を使用してSnowflakeでSparkワークロードを実行します。 をご参照ください。
Snowpark Submit には次のようなメリットがあります。
外部でのSparkのセットアップを必要とせず、Snowflakeが管理するインフラストラクチャにおいてクラスターモードで稼働できる機能
ワークフロー統合、CI/CD パイプラインによる自動化のサポート、Apache Airflow、またはcronベースのスケジューリング
Pythonのサポートにより、言語間で既存のSparkアプリケーションを再利用可能にする
外部Pythonモジュールまたは JARs のパッケージ化のサポートによる依存関係の管理
注釈
snowpark-submit は、spark-submit と同じ機能の多くをサポートしています。ただし、SnowflakeでSparkワークロードを実行する場合に必要ないため、一部の機能は省略されています。
Snowpark Submit 入門¶
Snowpark Submit の使用を開始するには、次のステップに従います。
Snowpark Submit をインストールする のステップに従って、Snowpark Submit をインストールします。
Snowpark Submit 例 をご覧ください。
Snowpark Submit の使用方法については Snowpark Submit リファレンス をご覧ください。