Amazon S3에 대해 자동으로 디렉터리 테이블 새로 고치기

이 항목에서는 S3 버킷에 대한 Amazon SQS (Simple Queue Service) 알림을 사용하여 디렉터리 테이블을 생성하고 디렉터리 테이블 메타데이터를 자동으로 새로 고치는 지침을 제공합니다. 이 작업은 외부 스테이지 및 경로에 있는 최신 관련 파일 세트과 메타데이터를 동기화합니다. 즉,

  • 경로의 새 파일이 테이블 메타데이터에 추가됩니다.

  • 경로의 파일에 대한 변경 사항은 테이블 메타데이터에서 업데이트됩니다.

  • 경로에 더 이상 없는 파일은 테이블 메타데이터에서 제거됩니다.

참고

  • 이 기능은 AWS의 Snowflake 계정으로 제한됩니다.

  • 이 항목에서 설명하는 작업을 수행하려면 스키마에 대해 CREATE STAGE 권한이 있는 역할을 사용해야 합니다.

    또한, AWS에 대한 관리 액세스 권한이 있어야 합니다. AWS 관리자가 아닌 경우 AWS 관리자에게 AWS 이벤트 알림을 구성하는 데 필요한 단계를 완료하도록 요청합니다.

  • 비용, 이벤트 노이즈, 지연 시간을 줄이기 위해 디렉터리 테이블에 대해 지원되는 이벤트만 보내는 것이 좋습니다.

이 항목의 내용:

Amazon SQS를 사용한 디렉터리 테이블 자동 새로 고침의 제한 사항

  • Virtual Private Snowflake(VPS)AWS PrivateLink 고객: Amazon SQS는 현재 AWS에 의해 VPC 엔드포인트로 지원됩니다. VPC(VPS 포함) 내의 AWS 서비스는 SQS와 통신할 수 있지만 이 트래픽은 VPC 내에 있지 않으므로 VPC에 의해 보호되지 않습니다.

  • SQS 모니터링되는 S3 버킷에 새 파일이 도착하고 로드할 준비가 되면 알림이 Snowflake에 알립니다. SQS 알림에는 S3 이벤트 및 파일 이름 목록이 포함됩니다. 파일의 실제 데이터는 포함되지 않습니다.

클라우드 플랫폼 지원

S3 이벤트 메시지를 사용하여 자동화된 외부 메타데이터 새로 고침을 트리거하는 기능은 Amazon Web Services(AWS)에서 호스팅되는 Snowflake 계정에서만 지원됩니다.

클라우드 저장소에 대한 보안 액세스 구성하기

참고

데이터 파일을 저장하는 S3 버킷에 대한 보안 액세스를 이미 구성한 경우에는 이 섹션을 건너뛸 수 있습니다.

이 섹션에서는 Snowflake ID 및 액세스 관리(IAM) 엔터티에 클라우드 저장소에 대한 인증 책임을 위임하도록 Snowflake 저장소 통합 오브젝트를 구성하는 방법을 설명합니다.

참고

클라우드 저장소에 액세스할 때 IAM 자격 증명을 제공할 필요가 없으므로 이 옵션을 사용하는 것이 매우 좋습니다. 추가적인 저장소 액세스 옵션은 Amazon S3에 대한 보안 액세스 구성하기 을 참조하십시오.

이 섹션에서는 Snowflake가 외부(즉, S3) 스테이지에서 참조하는 Amazon S3 버킷에서 데이터를 읽고 쓸 수 있도록 저장소 통합을 사용하는 방법을 설명합니다. 통합은 시크릿 키 또는 액세스 토큰과 같은 명시적 클라우드 공급자 자격 증명을 전달할 필요가 없는 명명된 일급 Snowflake 오브젝트입니다. 통합 오브젝트는 AWS ID 및 액세스 관리(IAM) 사용자 ID를 저장합니다. 조직의 관리자가 AWS 계정에서 통합 IAM 사용자 권한을 부여합니다.

통합은 통합을 사용하는 외부 스테이지를 생성할 때 사용자가 지정할 수 있는 위치를 제한하는 버킷(및 선택적 경로)을 나열할 수도 있습니다.

참고

  • 이 섹션의 지침을 완료하려면 AWS에서 IAM 정책 및 역할을 생성 및 관리할 수 있는 권한이 필요합니다. AWS 관리자가 아닌 경우 AWS 관리자에게 이러한 작업을 수행하도록 요청하십시오.

  • 현재, 저장소 통합을 사용하여 정부 리전 의 S3 저장소에 액세스하는 것은 동일한 정부 리전의 AWS에 호스팅된 Snowflake 계정으로 제한됩니다. 직접 자격 증명을 사용하여 정부 리전 외부에 호스팅된 계정에서 S3 저장소에 액세스하는 기능이 지원됩니다.

다음 다이어그램은 S3 스테이지의 통합 흐름을 보여줍니다.

Amazon S3 스테이지 통합 흐름
  1. 외부(즉, S3) 스테이지는 정의에서 저장소 통합 오브젝트를 참조합니다.

  2. Snowflake는 계정에 대해 생성된 S3 IAM 사용자와 저장소 통합을 자동으로 연결합니다. Snowflake는 Snowflake 계정의 모든 S3 저장소 통합에서 참조하는 단일 IAM 사용자를 생성합니다.

  3. 조직의 AWS 관리자가 IAM 사용자에게 스테이지 정의에서 참조하는 버킷에 액세스할 수 있는 권한을 부여합니다. 많은 외부 스테이지 오브젝트가 다른 버킷과 경로를 참조하고 인증에서 동일한 저장소 통합을 사용할 수 있습니다.

사용자가 스테이지에서 데이터를 로드하거나 언로드할 때 Snowflake는 액세스를 허용 또는 거부하기 전 버킷의 IAM 사용자에 부여된 권한을 확인합니다.

이 섹션의 내용:

1단계: S3 버킷에 대한 액세스 허가 구성

AWS 액세스 제어 요구 사항

Snowflake가 폴더(및 하위 폴더)의 파일에 액세스하기 위해 필요한 S3 버킷 및 폴더 권한은 다음과 같습니다.

  • s3:GetBucketLocation

  • s3:GetObject

  • s3:GetObjectVersion

  • s3:ListBucket

Snowflake는 S3 버킷에 대한 Snowflake 액세스에 대한 IAM 정책을 생성하는 것을 모범 사례로 권장합니다. 그러면 정책을 역할에 연결하고 AWS에서 역할에 대해 생성한 보안 자격 증명을 사용하여 버킷의 파일에 액세스할 수 있습니다.

IAM 정책 만들기

다음 단계별 지침에서는 S3 버킷에 액세스할 수 있도록 AWS 관리 콘솔에서 Snowflake에 대한 액세스 허가를 구성하는 방법을 설명합니다.

  1. AWS 관리 콘솔에 로그인합니다.

  2. 홈 대시보드에서 Identity & Access Management (IAM)를 선택합니다.

    AWS Management Console의 ID 및 액세스 관리
  3. 왼쪽 탐색 창에서 Account settings 을 선택합니다.

  4. Security Token Service Regions 목록을 확장하고 계정이 위치한 리전 에 해당하는 AWS 리전을 찾아 상태가 Inactive 이면 Activate 을 선택합니다.

  5. 왼쪽 탐색 창에서 Policies 을 선택합니다.

  6. Create Policy 을 클릭합니다.

    정책 페이지의 정책 생성 버튼
  7. JSON 탭을 클릭합니다.

  8. Snowflake가 S3 버킷 및 폴더에 액세스하도록 허용하는 정책 문서를 추가합니다.

    다음 정책(JSON 형식)은 Snowflake에 단일 버킷 및 폴더 경로를 사용하여 데이터를 로드하거나 언로드하기 위해 필요한 권한을 제공합니다.

    텍스트를 복사하여 정책 편집기에 붙여넣습니다.

    참고

    • bucketprefix 를 실제 버킷 이름과 폴더 경로 접두사로 바꿔야 합니다.

    • 정부 리전 의 버킷에 대한 ARN(Amazon Resource Name)에는 arn:aws-us-gov:s3::: 접두사가 있습니다.

    {
        "Version": "2012-10-17",
        "Statement": [
            {
                "Effect": "Allow",
                "Action": [
                  "s3:GetObject",
                  "s3:GetObjectVersion"
                ],
                "Resource": "arn:aws:s3:::<bucket>/<prefix>/*"
            },
            {
                "Effect": "Allow",
                "Action": [
                    "s3:ListBucket",
                    "s3:GetBucketLocation"
                ],
                "Resource": "arn:aws:s3:::<bucket>",
                "Condition": {
                    "StringLike": {
                        "s3:prefix": [
                            "<prefix>/*"
                        ]
                    }
                }
            }
        ]
    }
    
    Copy

    참고

    "s3:prefix": 조건을 ["*"] 또는 ["<경로>/*"] 로 설정하면 지정된 버킷의 모든 접두사 또는 버킷의 경로에 각각 액세스 권한이 부여됩니다.

    AWS 정책은 다양한 보안 사용 사례를 지원합니다.

  9. Review policy 를 클릭합니다.

  10. 정책 이름(예: snowflake_access)과 선택 사항으로 설명을 입력합니다. Create policy 를 클릭합니다.

    정책 검토 페이지의 정책 생성 버튼

2단계: AWS에서 IAM 역할 만들기

AWS Management Console에서 Snowflake에 대한 액세스 권한을 구성하려면 다음을 수행하십시오.

  1. AWS Management Console에 로그인합니다.

  2. 홈 대시보드에서 Identity & Access Management (IAM)를 선택합니다.

    AWS Management Console의 ID 및 액세스 관리
  3. 왼쪽 탐색 창에서 Roles 를 선택합니다.

  4. Create role 를 선택합니다.

    AWS Management Console에서 신뢰할 수 있는 엔터티 페이지 선택
  5. Another AWS account 을 신뢰할 수 있는 엔터티 타입으로 선택합니다.

  6. Account ID 필드에 본인의 AWS 계정 ID를 임시로 입력합니다. 이후에 신뢰 관계를 수정하고 Snowflake에 대한 액세스 권한을 부여합니다.

  7. Require external ID 옵션을 선택합니다. AWS 리소스(예: S3 버킷)에 대한 액세스 권한을 Snowflake와 같은 서드 파티에 부여하는 데 외부 ID가 사용됩니다.

    0000 과 같은 자리 표시자 ID를 입력합니다. 이후 단계에서는 IAM 역할에 대한 신뢰 관계를 수정하고 저장소 통합을 위한 외부 ID를 지정합니다.

  8. Next 를 선택합니다.

  9. 이 항목의 1단계: S3 버킷에 대한 액세스 허가 구성 에서 생성한 정책을 선택합니다.

  10. Next 를 선택합니다.

    AWS Management Console의 검토 페이지
  11. 역할의 이름과 설명을 입력한 다음 Create role 을 선택합니다.

    이제 버킷에 대한 IAM 정책을 생성하고 IAM 역할을 생성하며 정책을 역할에 연결했습니다.

  12. 역할 요약 페이지에서 Role ARN 값을 찾아서 기록합니다. 다음 단계에서는 이 역할을 참조하는 Snowflake 통합을 생성합니다.

    IAM 역할

참고

Snowflake는 어떤 기간 동안(60분의 만료 시간을 초과할 수는 없음) 임시 자격 증명을 캐시합니다. Snowflake에서 액세스를 취소하면 캐시가 만료될 때까지 사용자가 파일을 나열하고 클라우드 저장소 위치에서 데이터에 액세스할 수 있습니다.

3단계: Snowflake에서 클라우드 저장소 통합 만들기

CREATE STORAGE INTEGRATION 명령을 사용하여 저장소 통합을 생성합니다. 저장소 통합은 S3 클라우드 저장소에 대해 생성된 ID 및 액세스 관리(IAM) 사용자를 허용하거나 차단된 저장소 위치(즉, 버킷)의 선택적 세트과 함께 저장하는 Snowflake 오브젝트입니다. 저장소 위치에 대한 권한은 조직의 클라우드 공급자 관리자가 생성된 사용자에게 부여합니다. 이 옵션을 사용하면 사용자가 스테이지를 생성하거나 데이터를 로드할 때 자격 증명을 제공하지 않아도 됩니다.

단일 저장소 통합은 여러 외부(즉, S3) 스테이지를 지원할 수 있습니다. 스테이지 정의의 URL은 STORAGE_ALLOWED_LOCATIONS 매개 변수에 대해 지정된 S3 버킷(및 선택적 경로)와 일치해야 합니다.

참고

계정 관리자(ACCOUNTADMIN 역할의 사용자) 또는 전역 CREATE INTEGRATION 권한이 있는 역할만 이 SQL 명령을 실행할 수 있습니다.

CREATE STORAGE INTEGRATION <integration_name>
  TYPE = EXTERNAL_STAGE
  STORAGE_PROVIDER = 'S3'
  ENABLED = TRUE
  STORAGE_AWS_ROLE_ARN = '<iam_role>'
  STORAGE_ALLOWED_LOCATIONS = ('s3://<bucket>/<path>/', 's3://<bucket>/<path>/')
  [ STORAGE_BLOCKED_LOCATIONS = ('s3://<bucket>/<path>/', 's3://<bucket>/<path>/') ]
Copy

여기서

  • integration_name 은 새 통합의 이름입니다.

  • iam_role 은 이 항목의 2단계: AWS에서 IAM 역할 만들기 에서 생성한 역할의 Amazon 리소스 이름(ARN)입니다.

  • bucket 은 데이터 파일을 저장하는 S3 버킷의 이름입니다(예: mybucket). 필수 STORAGE_ALLOWED_LOCATIONS 매개 변수와 선택적 STORAGE_BLOCKED_LOCATIONS 매개 변수는 이 통합을 참조하는 스테이지가 생성되거나 수정될 때 이러한 버킷에 대한 액세스를 각각 제한하거나 차단합니다.

  • path 는 버킷의 오브젝트를 세부적으로 제어하기 위해 사용할 수 있는 선택적 경로입니다.

다음 예시에서는 계정의 모든 버킷에 대한 액세스를 허용하지만 정의된 sensitivedata 폴더에 대한 액세스를 차단하는 통합을 생성합니다.

이 통합도 사용하는 추가 외부 스테이지는 허용되는 버킷과 경로를 참조할 수 있습니다.

CREATE STORAGE INTEGRATION s3_int
  TYPE = EXTERNAL_STAGE
  STORAGE_PROVIDER = 'S3'
  ENABLED = TRUE
  STORAGE_AWS_ROLE_ARN = 'arn:aws:iam::001234567890:role/myrole'
  STORAGE_ALLOWED_LOCATIONS = ('*')
  STORAGE_BLOCKED_LOCATIONS = ('s3://mybucket1/mypath1/sensitivedata/', 's3://mybucket2/mypath2/sensitivedata/');
Copy

참고

선택적으로, STORAGE_AWS_EXTERNAL_ID 매개 변수를 사용하여 자체 외부 ID를 지정합니다. 이 옵션을 선택하여 여러 외부 볼륨 및/또는 저장소 통합에서 동일한 외부 ID를 사용할 수 있습니다.

4단계: Snowflake 계정에 대한 AWS IAM 사용자 검색

  1. Snowflake 계정에 대해 자동으로 생성된 IAM 사용자의 ARN을 검색하려면 DESCRIBE INTEGRATION 을 사용하십시오.

    DESC INTEGRATION <integration_name>;
    
    Copy

    여기서

    예:

    DESC INTEGRATION s3_int;
    
    +---------------------------+---------------+--------------------------------------------------------------------------------+------------------+
    | property                  | property_type | property_value                                                                 | property_default |
    +---------------------------+---------------+--------------------------------------------------------------------------------+------------------|
    | ENABLED                   | Boolean       | true                                                                           | false            |
    | STORAGE_ALLOWED_LOCATIONS | List          | s3://mybucket1/mypath1/,s3://mybucket2/mypath2/                                | []               |
    | STORAGE_BLOCKED_LOCATIONS | List          | s3://mybucket1/mypath1/sensitivedata/,s3://mybucket2/mypath2/sensitivedata/    | []               |
    | STORAGE_AWS_IAM_USER_ARN  | String        | arn:aws:iam::123456789001:user/abc1-b-self1234                                 |                  |
    | STORAGE_AWS_ROLE_ARN      | String        | arn:aws:iam::001234567890:role/myrole                                          |                  |
    | STORAGE_AWS_EXTERNAL_ID   | String        | MYACCOUNT_SFCRole=2_a123456/s0aBCDEfGHIJklmNoPq=                               |                  |
    +---------------------------+---------------+--------------------------------------------------------------------------------+------------------+
    
    Copy
  2. 다음 속성의 값을 기록합니다.

    속성

    설명

    STORAGE_AWS_IAM_USER_ARN

    Snowflake 계정용으로 생성된 AWS IAM 사용자입니다(예: arn:aws:iam::123456789001:user/abc1-b-self1234). Snowflake는 전체 Snowflake 계정에 대해 단일 IAM 사용자를 프로비저닝합니다. 계정의 모든 S3 저장소 통합은 해당 IAM 사용자를 사용합니다.

    STORAGE_AWS_EXTERNAL_ID

    Snowflake가 AWS와의 신뢰 관계를 설정하는 데 사용하는 외부 ID입니다. 저장소 통합을 생성할 때 외부 ID(STORAGE_AWS_EXTERNAL_ID)를 지정하지 않은 경우 Snowflake는 사용할 수 있는 ID를 생성합니다.

    다음 섹션에서 이러한 값을 입력합니다.

5단계: 버킷 오브젝트에 액세스할 수 있도록 IAM 사용자 권한 부여

다음 단계별 지침에서는 S3 버킷을 사용하여 데이터를 로드 및 언로드할 수 있도록 AWS 관리 콘솔에서 Snowflake에 대한 IAM 액세스 허가를 구성하는 방법을 설명합니다.

  1. AWS Management Console에 로그인합니다.

  2. Identity & Access Management (IAM)를 선택합니다.

    AWS Management Console의 ID 및 액세스 관리
  3. 왼쪽 탐색 창에서 Roles 를 선택합니다.

  4. 이 항목의 2단계: AWS에서 IAM 역할 만들기 에서 생성한 역할을 선택합니다.

  5. Trust relationships 탭을 선택합니다.

  6. Edit trust relationship 를 선택합니다.

  7. 이 항목의 4단계: Snowflake 계정에 대한 AWS IAM 사용자 검색 에서 기록한 DESC STORAGE INTEGRATION 출력 값으로 정책 문서를 수정합니다.

    IAM 역할에 대한 정책 문서

    {
      "Version": "2012-10-17",
      "Statement": [
        {
          "Sid": "",
          "Effect": "Allow",
          "Principal": {
            "AWS": "<snowflake_user_arn>"
          },
          "Action": "sts:AssumeRole",
          "Condition": {
            "StringEquals": {
              "sts:ExternalId": "<snowflake_external_id>"
            }
          }
        }
      ]
    }
    
    Copy

    여기서

    • snowflake_user_arn 은 사용자가 기록한 STORAGE_AWS_IAM_USER_ARN 값입니다.

    • snowflake_external_id 는 사용자가 기록한 STORAGE_AWS_EXTERNAL_ID 값입니다.

      이 예에서 snowflake_external_id 값은 MYACCOUNT_SFCRole=2_a123456/s0aBCDEfGHIJklmNoPq= 입니다.

      참고

      보안상의 이유로, 외부 ID를 지정하지 않고 새 저장소 통합을 생성하면(또는 CREATE OR REPLACE STORAGE INTEGRATION 구문을 사용하여 기존 저장소 통합을 다시 생성하면) 새 통합의 외부 ID가 다르므로 신뢰 정책을 업데이트하지 않으면 신뢰 관계를 확인할 수 없습니다.

  8. Update Trust Policy 버튼을 선택합니다. 변경 사항이 저장됩니다.

참고

Snowflake는 어떤 기간 동안(60분의 만료 시간을 초과할 수는 없음) 임시 자격 증명을 캐시합니다. Snowflake에서 액세스를 취소하면 캐시가 만료될 때까지 사용자가 파일을 나열하고 클라우드 저장소 위치에서 데이터를 로딩할 수 있습니다.

올바른 옵션 결정하기

계속하기 전에 데이터 파일이 있는 S3 버킷의 대상 경로(또는 AWS 용어로 “접두사”)에 대한 S3 이벤트 알림이 있는지 확인합니다. AWS 규칙에서는 동일한 경로에서 충돌하는 알림 생성을 금지합니다.

Amazon SQS를 사용하여 디렉터리 테이블 메타데이터 새로 고침을 자동화하는 다음 옵션이 지원됩니다.

  • 옵션 1. 새로운 S3 이벤트 알림: S3 버킷의 대상 경로에 대한 이벤트 알림을 생성합니다. 이벤트 알림은 경로의 새 파일, 제거 또는 수정된 파일에 디렉터리 테이블 메타데이터를 새로 고쳐야 할 때 SQS 큐를 통해 Snowflake에 알립니다.

    중요

    S3 버킷에 대해 충돌하는 이벤트 알림이 있는 경우에는 옵션 2를 대신 사용합니다.

  • 옵션 2. 기존 이벤트 알림: 디렉터리 테이블 새로 고침 자동화용 Snowflake SQS 큐를 포함하여 여러 엔드포인트(또는 “구독자”, 예: SQS 큐 또는 AWS Lambda 워크로드)와 지정된 경로에 대한 알림을 공유하도록 Amazon Simple Notification Service(SNS) 를 브로드캐스터로 구성합니다. SNS에 의해 게시된 S3 이벤트 알림은 SQS 큐를 통해 경로의 파일 변경 사항을 Snowflake에 알립니다.

    참고

    스테이지, 파이프 및 로드 기록 복제 를 사용할 계획이라면 이 옵션을 권장합니다. 복제 또는 장애 조치 그룹을 생성한 후 옵션 1에서 옵션 2로 마이그레이션할 수도 있습니다. 자세한 내용은 Amazon SNS(Simple Notification Service)로 마이그레이션하기 섹션을 참조하십시오.

옵션 1: 새 S3 이벤트 알림 만들기

이 섹션에서는 S3 버킷에 대한 Amazon SQS (Simple Queue Service) 알림을 사용하여 디렉터리 테이블 메타데이터를 자동으로 새로 고치는 가장 일반적인 옵션에 대해 설명합니다. 이 단계에서는 데이터 파일이 저장된 S3 버킷의 대상 경로(또는 AWS 용어로 “접두사”)에 대한 이벤트 알림을 생성하는 방법을 설명합니다.

중요

S3 버킷에 대해 충돌하는 이벤트 알림이 있는 경우 이 항목의 옵션 2: Amazon SNS 구성을 대신 사용합니다. AWS 규칙에서는 동일한 대상 경로에서 충돌하는 알림 생성을 금지합니다.

1단계: 포함된 디렉터리 테이블로 스테이지 만들기

CREATE STAGE 명령을 사용하여 S3 버킷을 참조하는 외부 스테이지를 생성합니다. Snowflake는 스테이징된 데이터 파일을 디렉터리 테이블 메타데이터로 읽습니다. 아니면 기존 외부 스테이지를 사용할 수 있습니다.

참고

  • 클라우드 저장소 위치에 대한 보안 액세스를 구성하려면 이 항목의 클라우드 저장소에 대한 보안 액세스 구성하기 를 참조하십시오.

  • CREATE STAGE 문에서 저장소 통합을 참조하려면 역할에 저장소 통합 오브젝트에 대한 USAGE 권한이 있어야 합니다.

-- External stage
CREATE [ OR REPLACE ] [ TEMPORARY ] STAGE [ IF NOT EXISTS ] <external_stage_name>
      <cloud_storage_access_settings>
    [ FILE_FORMAT = ( { FORMAT_NAME = '<file_format_name>' | TYPE = { CSV | JSON | AVRO | ORC | PARQUET | XML } [ formatTypeOptions ] } ) ]
    [ directoryTable ]
    [ COPY_OPTIONS = ( copyOptions ) ]
    [ COMMENT = '<string_literal>' ]
Copy

참고

URL 값에서 저장소 위치는 슬래시(/)로 끝나야 합니다.

여기서

directoryTable (for Amazon S3) ::=
  [ DIRECTORY = ( ENABLE = { TRUE | FALSE }
                  [ AUTO_REFRESH = { TRUE | FALSE } ] ) ]
Copy

디렉터리 테이블 매개 변수(directoryTable)

ENABLE = TRUE | FALSE

스테이지에 디렉터리 테이블을 추가할지 여부를 지정합니다. 값이 TRUE이면 디렉터리 테이블이 스테이지와 함께 생성됩니다.

기본값: FALSE

AUTO_REFRESH = TRUE | FALSE

[ WITH ] LOCATION = 설정에 지정된 명명된 외부 스테이지에서 신규 또는 업데이트된 데이터 파일을 사용할 수 있을 때 Snowflake가 디렉터리 테이블 메타데이터의 자동 새로 고침 트리거를 활성화해야 할지 여부를 지정합니다.

TRUE

Snowflake를 사용하면 디렉터리 테이블 메타데이터의 자동 새로 고침을 트리거할 수 있습니다.

FALSE

Snowflake를 사용하여 디렉터리 테이블 메타데이터의 자동 새로 고침을 트리거할 수 없습니다. 메타데이터를 스테이지 경로의 현재 파일 목록과 동기화하려면 ALTER STAGE … REFRESH를 사용하여 디렉터리 테이블 메타데이터를 주기적으로 수동으로 새로 고쳐야 합니다.

기본값: FALSE

다음 예에서는 사용자 세션에 대한 활성 스키마에 이름이 mystage 인 스테이지를 생성합니다. 클라우드 저장소 URL에는 files 경로가 포함됩니다. 스테이지는 my_storage_int 저장소 통합을 참조합니다.

USE SCHEMA mydb.public;
Copy
CREATE STAGE mystage
  URL='s3://load/files/'
  STORAGE_INTEGRATION = my_storage_int
  DIRECTORY = (
    ENABLE = true
    AUTO_REFRESH = true
  );
Copy

새 데이터 파일 또는 업데이트된 데이터 파일이 클라우드 저장소 위치에 추가되면 이벤트 알림은 Snowflake에 이를 디렉터리 테이블 메타데이터로 스캔하도록 알립니다.

2단계: 이벤트 알림 구성

새 데이터 또는 업데이트된 데이터를 디렉터리 테이블 메타데이터로 읽을 수 있는 경우 Snowflake에 알리도록 S3 버킷에 대한 이벤트 알림을 구성합니다. 자동 새로 고침 기능은 SQS 큐를 사용하여 S3에서 Snowflake로 이벤트 알림을 전달합니다.

편리하게 사용할 수 있도록, Snowflake가 이러한 SQS 큐를 생성 및 관리합니다. DESCRIBE STAGE 명령의 출력은 SQS 큐의 Amazon 리소스 이름(ARN)을 표시합니다.

  1. DESCRIBE STAGE 명령을 실행합니다.

    DESC STAGE <stage_name>;
    
    Copy

    예:

    DESC STAGE mystage;
    
    Copy

    directory_notification_channel 필드의 디렉터리 테이블에 대한 SQS 큐의 ARN에 유의하십시오. 원하는 위치에 ARN을 복사합니다.

    참고

    AWS 지침에 따라 Snowflake는 S3 버킷당 SQS 큐를 1개만 지정합니다. 이 SQS 큐는 동일한 AWS 계정의 여러 버킷 사이에서 공유할 수 있습니다. SQS 큐는 동일한 S3 버킷에서 데이터 파일을 읽는 모든 디렉터리 테이블에 대한 알림을 조정합니다. 새 데이터 파일이나 수정된 데이터 파일이 버킷에 업로드되면 스테이지 디렉터리 경로와 일치하는 모든 디렉터리 테이블 정의가 파일 세부 정보를 메타데이터로 읽어옵니다.

  2. AWS 관리 콘솔에 로그인합니다.

  3. Amazon S3 설명서 에서 제공되는 지침을 사용하여 S3 버킷에 대한 이벤트 알림을 구성합니다. 다음과 같이 필드를 입력합니다.

    • Name: 이벤트 알림의 이름(예: Auto-ingest Snowflake)입니다.

    • Events: ObjectCreate (All)ObjectRemoved 옵션을 선택합니다.

    • Send to: 드롭다운 목록에서 SQS Queue 를 선택합니다.

    • SQS: 드롭다운 목록에서 Add SQS queue ARN 를 선택합니다.

    • SQS queue ARN: DESC STAGE 출력에서 SQS 큐의 이름을 붙여넣습니다.

참고

이 지침은 전체 S3 버킷에 대한 활동을 모니터링하는 단일 이벤트 알림을 생성합니다. 이 방법이 가장 단순한 방법입니다. 이 알림은 S3 버킷 디렉터리에서 보다 세분화된 수준으로 구성된 모든 디렉터리 테이블을 처리합니다.

아니면 위의 단계에서 하나 이상의 경로 및/또는 파일 확장자(또는 AWS 용어로 접두사접미사)를 구성하여 이벤트 활동을 필터링합니다. 지침은 관련 AWS 설명서 항목 에서 오브젝트 키 이름 필터링 정보를 참조하십시오. 알림에서 모니터링할 각 추가 경로 또는 파일 확장자에서 이 단계를 반복합니다.

AWS에서는 이러한 알림 큐 구성 의 수가 S3 버킷당 최대 100개로 제한됨에 유의하십시오.

또한, AWS에서는 동일한 S3 버킷에 대한 중첩 큐 구성(이벤트 알림 전체)을 허용하지 않습니다. 예를 들어, 기존 알림이 s3://mybucket/files/path1 에 대해 구성된 경우 s3://mybucket/files 와 같이 상위 수준에서 다른 알림을 생성할 수 없으며 그 반대의 경우도 마찬가지입니다.

이제 자동 새로 고침이 포함된 외부 스테이지가 구성되었습니다!

새 데이터 파일 또는 업데이트된 데이터 파일이 S3 버킷에 추가되면 이벤트 알림은 Snowflake에 이를 디렉터리 테이블 메타데이터로 스캔하도록 알립니다.

3단계: 디렉터리 테이블 메타데이터를 수동으로 새로 고치기

ALTER STAGE 명령을 사용하여 디렉터리 테이블의 메타데이터를 수동으로 새로 고칩니다.

ALTER STAGE [ IF EXISTS ] <name> REFRESH [ SUBPATH = '<relative-path>' ]
Copy

여기서

REFRESH

디렉터리 테이블 정의에서 참조하는 스테이지 상태 데이터 파일에 액세스하고 테이블 메타데이터를 업데이트합니다.

  • 경로의 새 파일이 테이블 메타데이터에 추가됩니다.

  • 경로의 파일에 대한 변경 사항은 테이블 메타데이터에서 업데이트됩니다.

  • 경로에 더 이상 없는 파일은 테이블 메타데이터에서 제거됩니다.

현재는 파일이 스테이지에 추가되거나 업데이트되거나 삭제될 때마다 이 명령을 실행해야 합니다. 이 단계에서는 디렉터리 테이블에 대한 스테이지 정의에서 최신 관련 파일 세트와 메타데이터를 동기화합니다.

SUBPATH = '<relative-path>'

선택적으로, 데이터 파일의 특정 서브세트에 대한 메타데이터를 새로 고칠 상대 경로를 지정합니다.

예를 들어, 다음과 같이 mystage 로 명명된 스테이지에서 디렉터리 테이블 메타데이터를 수동으로 새로 고칩니다.

ALTER STAGE mystage REFRESH;
Copy

중요

디렉터리 테이블이 생성된 후 이 단계가 한 번 이상 성공적으로 완료되지 않으면 알림 이벤트가 디렉터리 테이블 메타데이터를 트리거하여 처음으로 자동으로 새로 고칠 때까지 디렉터리 테이블을 쿼리해도 결과가 반환되지 않습니다.

4단계: 보안 구성

디렉터리 테이블을 쿼리하는 데 사용할 각 추가 역할에 대해 GRANT <권한> 를 사용하여 다양한 오브젝트(즉, 데이터베이스, 스키마, 스테이지 및 테이블)에 대한 충분한 액세스 제어 권한을 부여합니다.

오브젝트

권한

참고

데이터베이스

USAGE

스키마

USAGE

명명된 스테이지

USAGE , READ

명명된 파일 형식

USAGE

옵션2: Amazon SNS 구성하기

이 섹션에서는 S3 버킷에 대한 Amazon SQS(Simple Queue Service) 알림을 사용하여 디렉터리 테이블 메타데이터 새로 고침을 자동으로 트리거하는 방법을 설명합니다. 이 단계에서는 디렉터리 테이블 새로 고침을 자동화하기 위한 Snowflake SQS 큐를 포함하여 S3 버킷에 대한 이벤트 알림을 여러 구독자(예: SQS 큐 또는 AWS Lambda 워크로드)에 게시하도록 브로드캐스터로 Amazon Simple Notification Service(SNS) 를 구성하는 방법을 설명합니다.

참고

이 지침에서는 데이터 파일이 있는 S3 버킷의 대상 경로에 대한 이벤트 알림이 있는 것으로 가정합니다. 이벤트 알림이 없는 경우에는 다음을 수행합니다.

전제 조건: Amazon SNS 항목 및 구독 만들기

  1. AWS 계정에 SNS 항목을 생성하여 S3 버킷의 Snowflake 스테이지 위치에 대한 모든 메시지를 처리합니다.

  2. S3 이벤트 알림(예: 다른 SQS 큐 또는 AWS Lambda 워크로드)에 대한 대상 오브젝트를 이 항목에 구독합니다. SNS 항목의 모든 구독자에게 버킷에 대한 이벤트 알림을 게시합니다.

자세한 지침은 SNS 설명서 를 참조하십시오.

1단계: Snowflake SQS 큐를 SNS 항목에 구독

  1. AWS 관리 콘솔에 로그인합니다.

  2. 홈 대시보드에서 Simple Notification Service (SNS)를 선택합니다.

  3. 왼쪽 탐색 창에서 Topics 을 선택합니다.

  4. S3 버킷에 대한 항목을 찾습니다. ARN 항목을 기록합니다.

  5. Snowflake 클라이언트를 사용하여 SNS 항목 ARN을 사용하여 SYSTEM$GET_AWS_SNS_IAM_POLICY 시스템 함수를 쿼리합니다.

    select system$get_aws_sns_iam_policy('<sns_topic_arn>');
    
    Copy

    이 함수는 Snowflake SNS 항목을 구독할 수 있는 권한을 SQS 큐에 부여하는 IAM 정책을 반환합니다.

    예:

    select system$get_aws_sns_iam_policy('arn:aws:sns:us-west-2:001234567890:s3_mybucket');
    
    +---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
    | SYSTEM$GET_AWS_SNS_IAM_POLICY('ARN:AWS:SNS:US-WEST-2:001234567890:S3_MYBUCKET')                                                                                                                                                                   |
    +---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
    | {"Version":"2012-10-17","Statement":[{"Sid":"1","Effect":"Allow","Principal":{"AWS":"arn:aws:iam::123456789001:user/vj4g-a-abcd1234"},"Action":["sns:Subscribe"],"Resource":["arn:aws:sns:us-west-2:001234567890:s3_mybucket"]}]}                 |
    +---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
    
    Copy
  6. AWS 관리 콘솔로 돌아갑니다. 왼쪽 탐색 창에서 Topics 을 선택합니다.

  7. S3 버킷에 대한 항목을 선택하고 Edit 버튼을 클릭합니다. Edit 페이지가 열립니다.

  8. Access policy - Optional 을 클릭하여 페이지의 이 영역을 확장합니다.

  9. SYSTEM$GET_AWS_SNS_IAM_POLICY 함수에서 IAM 정책 추가를 병합하면 JSON 문서가 생성됩니다.

    예:

    원본 IAM 정책(축약형):

    {
      "Version":"2008-10-17",
      "Id":"__default_policy_ID",
      "Statement":[
         {
            "Sid":"__default_statement_ID",
            "Effect":"Allow",
            "Principal":{
               "AWS":"*"
            }
            ..
         }
       ]
     }
    
    Copy

    병합된 IAM 정책:

    {
      "Version":"2008-10-17",
      "Id":"__default_policy_ID",
      "Statement":[
         {
            "Sid":"__default_statement_ID",
            "Effect":"Allow",
            "Principal":{
               "AWS":"*"
            }
            ..
         },
         {
            "Sid":"1",
            "Effect":"Allow",
            "Principal":{
              "AWS":"arn:aws:iam::123456789001:user/vj4g-a-abcd1234"
             },
             "Action":[
               "sns:Subscribe"
             ],
             "Resource":[
               "arn:aws:sns:us-west-2:001234567890:s3_mybucket"
             ]
         }
       ]
     }
    
    Copy
  10. S3가 버킷에 대한 이벤트 알림을 SNS 항목에 게시할 수 있도록 추가 정책 권한 부여를 추가합니다.

    예를 들어(이 지침 전체에서 사용되는 SNS 항목 ARN 및 S3 버킷 사용),

    {
        "Sid":"s3-event-notifier",
        "Effect":"Allow",
        "Principal":{
           "Service":"s3.amazonaws.com"
        },
        "Action":"SNS:Publish",
        "Resource":"arn:aws:sns:us-west-2:001234567890:s3_mybucket",
        "Condition":{
           "ArnLike":{
              "aws:SourceArn":"arn:aws:s3:*:*:s3_mybucket"
           }
        }
     }
    
    Copy

    병합된 IAM 정책:

    {
      "Version":"2008-10-17",
      "Id":"__default_policy_ID",
      "Statement":[
         {
            "Sid":"__default_statement_ID",
            "Effect":"Allow",
            "Principal":{
               "AWS":"*"
            }
            ..
         },
         {
            "Sid":"1",
            "Effect":"Allow",
            "Principal":{
              "AWS":"arn:aws:iam::123456789001:user/vj4g-a-abcd1234"
             },
             "Action":[
               "sns:Subscribe"
             ],
             "Resource":[
               "arn:aws:sns:us-west-2:001234567890:s3_mybucket"
             ]
         },
         {
            "Sid":"s3-event-notifier",
            "Effect":"Allow",
            "Principal":{
               "Service":"s3.amazonaws.com"
            },
            "Action":"SNS:Publish",
            "Resource":"arn:aws:sns:us-west-2:001234567890:s3_mybucket",
            "Condition":{
               "ArnLike":{
                  "aws:SourceArn":"arn:aws:s3:*:*:s3_mybucket"
               }
            }
          }
       ]
     }
    
    Copy
  11. Save changes 버튼을 클릭합니다.

2단계: 포함된 디렉터리 테이블로 스테이지 만들기

CREATE STAGE 명령을 사용하여 S3 버킷을 참조하는 외부 스테이지를 생성합니다. Snowflake는 스테이징된 데이터 파일을 디렉터리 테이블 메타데이터로 읽습니다. 아니면 기존 외부 스테이지를 사용할 수 있습니다.

참고

  • 클라우드 저장소 위치에 대한 보안 액세스를 구성하려면 이 항목의 클라우드 저장소에 대한 보안 액세스 구성하기 를 참조하십시오.

  • CREATE STAGE 문에서 저장소 통합을 참조하려면 역할에 저장소 통합 오브젝트에 대한 USAGE 권한이 있어야 합니다.

-- External stage
CREATE [ OR REPLACE ] [ TEMPORARY ] STAGE [ IF NOT EXISTS ] <external_stage_name>
      <cloud_storage_access_settings>
    [ FILE_FORMAT = ( { FORMAT_NAME = '<file_format_name>' | TYPE = { CSV | JSON | AVRO | ORC | PARQUET | XML } [ formatTypeOptions ] } ) ]
    [ directoryTable ]
    [ COPY_OPTIONS = ( copyOptions ) ]
    [ COMMENT = '<string_literal>' ]
Copy

여기서

directoryTable (for Amazon S3) ::=
  [ DIRECTORY = ( ENABLE = { TRUE | FALSE }
                  [ AUTO_REFRESH = { TRUE | FALSE } ]
                  [ AWS_SNS_TOPIC = '<sns_topic_arn>' ] ) ]
Copy

디렉터리 테이블 매개 변수(directoryTable)

ENABLE = TRUE | FALSE

스테이지에 디렉터리 테이블을 추가할지 여부를 지정합니다. 값이 TRUE이면 디렉터리 테이블이 스테이지와 함께 생성됩니다.

기본값: FALSE

AUTO_REFRESH = TRUE | FALSE

[ WITH ] LOCATION = 설정에 지정된 명명된 외부 스테이지에서 신규 또는 업데이트된 데이터 파일을 사용할 수 있을 때 Snowflake가 디렉터리 테이블 메타데이터의 자동 새로 고침 트리거를 활성화해야 할지 여부를 지정합니다.

TRUE

Snowflake를 사용하면 디렉터리 테이블 메타데이터의 자동 새로 고침을 트리거할 수 있습니다.

FALSE

Snowflake를 사용하여 디렉터리 테이블 메타데이터의 자동 새로 고침을 트리거할 수 없습니다. 메타데이터를 스테이지 경로의 현재 파일 목록과 동기화하려면 ALTER STAGE … REFRESH를 사용하여 디렉터리 테이블 메타데이터를 주기적으로 수동으로 새로 고쳐야 합니다.

기본값: FALSE

Amazon S3

AWS_SNS_TOPIC = '<sns_항목_arn>'

S3 버킷의 SNS 항목에 대한 ARN을 지정합니다. CREATE 디렉터리 테이블 문은 Snowflake SQS 큐가 지정된 SNS 항목을 구독하도록 합니다.

다음 예에서는 사용자 세션에 대한 활성 스키마에 이름이 mystage 인 스테이지를 생성합니다. 클라우드 저장소 URL에는 files 경로가 포함됩니다. 스테이지는 my_storage_int 저장소 통합을 참조합니다.

USE SCHEMA mydb.public;
Copy
CREATE STAGE mystage
  URL='s3://load/files/'
  STORAGE_INTEGRATION = my_storage_int
  DIRECTORY = (
    ENABLE = true
    AUTO_REFRESH = true
    AWS_SNS_TOPIC = 'arn:aws:sns:us-west-2:001234567890:s3_mybucket'
  );
Copy

새 데이터 파일 또는 업데이트된 데이터 파일이 클라우드 저장소 위치에 추가되면 이벤트 알림은 Snowflake에 이를 디렉터리 테이블 메타데이터로 스캔하도록 알립니다.

3단계: 디렉터리 테이블 메타데이터를 수동으로 새로 고치기

ALTER STAGE 명령을 사용하여 디렉터리 테이블의 메타데이터를 수동으로 새로 고칩니다.

ALTER STAGE [ IF EXISTS ] <name> REFRESH [ SUBPATH = '<relative-path>' ]
Copy

여기서

REFRESH

디렉터리 테이블 정의에서 참조하는 스테이지 상태 데이터 파일에 액세스하고 테이블 메타데이터를 업데이트합니다.

  • 경로의 새 파일이 테이블 메타데이터에 추가됩니다.

  • 경로의 파일에 대한 변경 사항은 테이블 메타데이터에서 업데이트됩니다.

  • 경로에 더 이상 없는 파일은 테이블 메타데이터에서 제거됩니다.

현재는 파일이 스테이지에 추가되거나 업데이트되거나 삭제될 때마다 이 명령을 실행해야 합니다. 이 단계에서는 디렉터리 테이블에 대한 스테이지 정의에서 최신 관련 파일 세트와 메타데이터를 동기화합니다.

SUBPATH = '<relative-path>'

선택적으로, 데이터 파일의 특정 서브세트에 대한 메타데이터를 새로 고칠 상대 경로를 지정합니다.

예를 들어, 다음과 같이 mystage 로 명명된 스테이지에서 디렉터리 테이블 메타데이터를 수동으로 새로 고칩니다.

ALTER STAGE mystage REFRESH;
Copy

중요

디렉터리 테이블이 생성된 후 이 단계가 한 번 이상 성공적으로 완료되지 않으면 알림 이벤트가 디렉터리 테이블 메타데이터를 트리거하여 처음으로 자동으로 새로 고칠 때까지 디렉터리 테이블을 쿼리해도 결과가 반환되지 않습니다.

4단계: 보안 구성

디렉터리 테이블을 쿼리하는 데 사용할 각 추가 역할에 대해 GRANT <권한> 를 사용하여 다양한 오브젝트(즉, 데이터베이스, 스키마, 스테이지 및 테이블)에 대한 충분한 액세스 제어 권한을 부여합니다.

오브젝트

권한

참고

데이터베이스

USAGE

스키마

USAGE

명명된 스테이지

USAGE , READ

명명된 파일 형식

USAGE