|spsubmit|에서 Spark 일괄 워크로드 실행하기

익숙한 Spark 의미 체계를 사용하면서 Snowflake의 인프라에서 직접 비대화형 비동기 방식으로 Spark 워크로드를 실행할 수 있습니다. |spsubmit|을 사용하면 간단한 CLI 인터페이스를 이용해 프로덕션용 Spark 애플리케이션(예: ETL 파이프라인 및 예약된 데이터 변환)을 제출할 수 있습니다. 이와 같은 방식으로 전용 Spark 클러스터 없이 기존 Spark 개발 워크플로를 유지 관리할 수 있습니다.

예를 들면, PySpark ETL 스크립트를 패키징한 후 Snowpark Submit CLI를 사용해 Snowpark Container Services 컨테이너의 일괄 작업으로 스크립트를 실행할 수 있습니다. 이 메서드를 사용하면 Apache Airflow 또는 CI/CD 도구를 이용해 야간 데이터 파이프라인을 자동화할 수 있습니다. Spark 코드는 |spcs|의 클러스터 모드에서 실행되며, 기본 제공 종속성 및 리소스 관리를 통해 원활하게 확장됩니다.

Snowpark Submit 사용 예제는 Snowpark Submit 예 섹션을 참조하세요.

|spsubmit|을 사용하여 Snowflake에서 Spark 워크로드를 실행합니다. |spconnect|. |spconnect|에 대한 자세한 내용은 |spconnect|를 사용하여 Snowflake에서 Spark 워크로드 실행하기 를 참조하십시오.

|spsubmit|이 제공하는 이점은 다음과 같습니다.

  • 외부 Spark 설정 없이 Snowflake 관리형 인프라에서 클러스터 모드로 실행 가능

  • 워크플로 통합: CI/CD 파이프라인, Apache Airflow 또는 cron 기반 예약을 통해 자동화를 지원

  • Python 지원: 여러 언어에서 기존 Spark 애플리케이션 재사용 가능

  • 종속성 관리: 외부 Python 모듈 또는 JARs 패키징 지원

참고

:command:`snowpark-submit`은 command:`spark-submit`과 동일한 기능을 대부분 지원합니다. 그러나 일부 기능은 Snowflake에서 Spark 워크로드를 실행할 때 필요하지 않아 생략되었습니다.

Snowpark Submit 시작하기

|spsubmit|을 사용하려면 다음 단계를 따르세요.

  1. :doc:`/developer-guide/snowpark-connect/snowpark-submit-install`의 단계에 따라 |spsubmit|을 설치합니다.

  2. :doc:`/developer-guide/snowpark-connect/snowpark-submit-examples`를 자세히 살펴봅니다.

  3. :doc:`/developer-guide/snowpark-connect/snowpark-submit-reference`를 통해 Snowpark Submit 사용 방법을 알아봅니다.