Qubole에서 Spark용 Snowflake 구성하기

Qubole에서 Spark용 Snowflake를 구성하려면 Snowflake를 Qubole 데이터 저장소로 추가하기만 하면 됩니다. 이 항목에서는 Qubole 데이터 서비스(QDS) UI를 사용하여 이 작업을 수행하기 위한 단계별 지침을 제공합니다.

참고

QDS REST API를 사용하여 Snowflake를 데이터 저장소로 추가할 수도 있습니다. 단계별 지침을 Qubole 설명서의 Snowflake 데이터 웨어하우스를 데이터 저장소로 추가하기 를 참조하십시오.

이 항목의 내용:

전제 조건

  • 데이터 저장소를 추가하려면 QDS 시스템 관리자여야 합니다.

  • Qubole Enterprise 에디션 계정을 보유해야 합니다.

  • 연결에서 사용되는 역할에는 Qubole를 통해 읽거나 쓸 테이블이 포함된 스키마에 대한 USAGE 및 CREATE STAGE 권한이 필요합니다.

장기 실행 쿼리를 위한 외부 위치 준비하기

일부 작업이 36시간을 초과하여 실행되는 경우 Snowflake와 Spark 사이에서 데이터를 교환하기 위해 사용할 외부 위치를 준비하는 것이 좋습니다. 자세한 내용은 파일을 위한 외부 위치 준비하기 섹션을 참조하십시오.

QDS UI에서 Snowflake를 데이터 저장소로 추가하기

  1. Home 메뉴에서 Explore 을 클릭합니다.

  2. Explore 페이지의 드롭다운 목록에서 + Add Data Store 를 선택합니다.

  3. 다음 테이블에 필수 정보를 입력합니다.

    • Data Store Name: 생성할 데이터 저장소의 이름을 입력합니다.

    • Database Type: ‘Snowflake’를 선택합니다.

    • Catalog Name: Snowflake 카탈로그의 이름을 입력합니다.

    • Database Name: 데이터가 저장된 Snowflake에 데이터베이스 이름을 입력합니다.

    • Warehouse Name: 쿼리에 사용할 Snowflake 가상 웨어하우스의 이름을 입력합니다.

    • Host Address: Snowflake 계정의 기본 URL(예: myorganization-myaccount.snowflakecomputing.com)을 입력합니다. 이 URL에서 계정 식별자 지정에 대한 자세한 내용은 계정 식별자 를 참조하십시오.

    • Username: Snowflake 사용자의 로그인 이름(호스트에 연결하기 위해 사용됨)을 입력합니다.

    • Password: Snowflake 사용자의 비밀번호(호스트에 연결하기 위해 사용됨)를 입력합니다.

    Host Address 를 제외한 모든 값에서는 대/소문자를 구분합니다.

  4. Save 을 클릭하여 데이터 저장소를 생성합니다.

데이터 저장소로 추가할 각 Snowflake 데이터베이스에서 이 단계를 반복합니다. 또는 데이터 저장소를 편집하여 Snowflake 데이터베이스 또는 데이터 저장소의 기타 속성을 변경(예: 쿼리에 사용되는 가상 웨어하우스 변경)할 수도 있습니다.

참고

Snowflake 데이터 저장소를 추가한 후 Spark 클러스터를 다시 시작합니다(이미 실행 중인 Spark 클러스터를 사용하는 경우). Spark 클러스터를 다시 시작하면 Spark용 Snowflake Connector 및 Snowflake JDBC 드라이버용 .jar 파일이 설치됩니다.

Qubole에서 Snowflake 데이터 저장소 확인하기

Snowflake 데이터 저장소가 생성되고 활성화되었는지 확인하려면 Explore 페이지의 왼쪽 상단에 있는 드롭다운 목록을 클릭합니다. 녹색 점은 데이터 저장소가 활성화되었음을 나타냅니다.

또한, Explore 페이지의 왼쪽 창에 있는 테이블 탐색기 위젯에서 데이터 저장소에 지정된 Snowflake 데이터베이스의 모든 테이블이 표시되는지 확인해야 합니다.

Qubole에서 쿼리 푸시다운

Spark 쿼리는 Snowflake의 자동 쿼리 푸시다운 최적화를 활용하여 성능을 향상합니다. 기본적으로 Qubole에서는 Snowflake 쿼리 푸시다운를 사용하도록 설정됩니다.

쿼리 푸시다운에 대한 자세한 내용은 Snowflake로 Spark 쿼리 처리 푸시하기 (Snowflake 블로그)를 참조하십시오.