Openflow Connector for PostgreSQL 정보

참고

이 커넥터에는 `Snowflake Connector 약관<https://www.snowflake.com/legal/snowflake-connector-terms/>`_이 적용됩니다.

이 항목에서는 Openflow Connector for PostgreSQL 의 기본 개념, 워크플로 및 제한 사항에 대해 설명합니다.

Openflow Connector for PostgreSQL 정보

Openflow Connector for PostgreSQL 은 PostgreSQL 데이터베이스 인스턴스를 Snowflake에 연결하고 선택한 테이블의 데이터를 거의 실시간으로 또는 예약된 일정에 따라 복제합니다. 커넥터는 또한 복제된 테이블의 현재 상태에 따라 사용할 수 있는 모든 데이터 변경 사항의 로그를 생성합니다.

사용 사례

다음 작업을 수행하려는 경우 이 커넥터를 사용하십시오.

  • 포괄적인 중앙 집중식 보고를 위해 Snowflake를 사용한 PostgreSQL 데이터의 CDC 복제.

지원되는 PostgreSQL 버전

지원되는 PostgreSQL 버전은 다음과 같습니다.

지원되는 PostgreSQL 버전

11

12

13

14

15

16

17

18

표준

AWS RDS

Amazon Aurora

GCP 클라우드 SQL

Azure Database

Openflow 요구사항

  • 런타임 크기는 중간 이상이어야 합니다. 대용량 데이터를 복제할 때는, 특히 행 크기가 클 경우 더 큰 런타임을 사용합니다.

  • 해당 커넥터는 다중 노드 Openflow 런타임을 지원하지 않습니다. 이 커넥터의 런타임을 구성할 때 Min nodes 및 :ui:`Max nodes`를 ``1``로 설정합니다.

제한 사항

  • 커넥터는 PostgreSQL 버전 11 이상을 지원합니다.

  • 커넥터는 PostgreSQL 을 통한 사용자 이름과 비밀번호 인증만 지원합니다.

  • 커넥터는 16MB보다 큰 개별 값을 복제하지 않습니다. 기본적으로, 이러한 값을 처리하면 연결된 테이블이 영구적으로 실패한 것으로 표시됩니다. 테이블 오류를 방지하려면 너무 큰 값 초과 시 전략 대상 매개 변수를 수정합니다.

  • 커넥터는 Snowflake의 유형 제한 을 초과하는 데이터가 있는 테이블은 복제하지 않습니다. 이 규칙의 예외는 범위를 벗어난 값이 포함된 날짜 및 시간 데이터 타입 열입니다. 자세한 내용은 범위를 벗어난 값 지원 섹션을 참조하세요.

  • 커넥터에는 복제된 모든 테이블에 기본 키가 있어야 하고 테이블의 복제본 ID는 기본 키와 동일해야 합니다.

  • 커넥터는 기본 키 정의 변경, 전체 자릿수 변경 또는 숫자 열의 스케일 변경을 제외한 소스 테이블 스키마 변경을 지원합니다.

  • 커넥터는 삭제된 열을 다시 추가하는 기능을 지원하지 않습니다.

참고

특정 테이블 열에 영향을 미치는 제한은 이러한 특정 열을 복제에서 제외하여 우회할 수 있습니다.

워크플로

  1. 데이터베이스 관리자 가 PostgreSQL 복제 설정을 구성하고, 게시를 만들고, 커넥터에 대한 자격 증명을 생성합니다. 선택 사항으로 SSL 인증서를 제공합니다.

  2. Snowflake 계정 관리자 는 다음 작업을 수행합니다.

    1. 커넥터에 대한 서비스 사용자, 커넥터를 위한 웨어하우스, 복제할 대상 데이터베이스를 생성합니다.

    2. 커넥터를 설치합니다.

    3. 플로우 템플릿의 필수 매개 변수를 지정합니다.

    4. 플로우를 실행합니다. 커넥터는 Openflow에서 실행될 때 다음 작업을 수행합니다.

      1. 저널 테이블에 대한 스키마를 생성합니다.

      2. 복제를 위해 구성된 소스 테이블과 일치하는 스키마 및 대상 테이블을 생성합니다.

      3. 테이블 복제 수명 주기에 따라 복제를 시작합니다.

커넥터의 작동 방식

다음 섹션에서는 복제, 스키마의 변경, 데이터 보존 등 다양한 시나리오에서 커넥터가 작동하는 방식을 설명합니다.

테이블이 복제되는 방법

  1. 스키마 검사: 커넥터는 소스 테이블의 열, 이름, 유형을 검색한 다음 Snowflake 및 커넥터의 제한 사항에 대해 유효성을 검사합니다. 유효성 검사에 실패하면 이 스테이지가 실패하고 사이클이 완료됩니다. 스키마 자가 분석을 성공적으로 완료한 후 커넥터는 빈 대상 테이블을 생성합니다.

  2. 스냅샷 로딩: 커넥터는 소스 테이블에서 사용 가능한 모든 데이터를 대상 테이블에 복사본으로 복사합니다. 이 스테이지가 실패하면 사이클이 종료되고 더 이상 데이터가 복제되지 않습니다. 성공적으로 완료되면 소스 테이블의 전체 데이터 세트를 대상 테이블에서 사용할 수 있습니다.

  3. 증분 로딩: 커넥터는 계속해서 원본 테이블의 변경 내용을 추적하고 대상 테이블에 복사합니다. 테이블이 복제에서 제거될 때까지 이 과정이 계속됩니다. 이 스테이지에서 실패하면 문제가 제거될 때까지 소스 테이블의 복제가 영구적으로 중지됩니다.

    참고

    이 커넥터는 스냅샷 로드 단계를 우회하여 새로 추가된 테이블에 대한 증분 변경 사항 복제를 즉시 시작하도록 구성할 수 있습니다. 이 옵션은 이전에 복제된 데이터가 있는 계정에 커넥터를 다시 설치하며 테이블 스냅샷을 다시 생성하지 않고 복제를 계속하려는 경우에 유용한 경우가 많습니다.

    스냅샷 로드 우회 및 증분 로드 프로세스 사용에 대한 자세한 내용은 :doc:`증분 복제<incremental-replication>`를 참조하세요.

중요

연결 오류와 같은 임시 오류로 인해 테이블이 복제되지 않습니다. 지원되지 않는 데이터 타입과 같은 영구 오류로 인해 테이블이 복제되지 않습니다. 영구적인 오류로 인해 테이블을 복제할 수 없는 경우 복제된 테이블 목록에서 테이블을 제거합니다. 실패의 원인이 된 문제를 해결한 후에는 테이블을 복제된 테이블 목록에 다시 추가할 수 있습니다.

TOASTed 값 지원

커넥터는 array, bytea, json, jsonb, text, varchar, xml 유형의 열에 대해 `TOAST 값<https://www.postgresql.org/docs/current/storage-toast.html>`_을 사용한 테이블 복제를 지원합니다.

커넥터가 CDC 스트림에서 TOASTed 값을 발견할 때마다 지정된 열 유형에 대해 형식이 지정된 기본 자리 표시자인 __previous_value_unchanged``로 대체하고 저널 테이블에 저장합니다. 그런 ``MERGE 쿼리는 자리 표시자 값을 설명하므로 대상 테이블에는 항상 TOASTed가 아닌 마지막 값이 포함됩니다.

범위를 벗어난 값 지원

커넥터는 범위를 벗어난 값을 포함하는 date, timestamptimestamptz 유형의 열이 있는 테이블의 복제를 지원합니다. 커넥터가 CDC 스트림에서 범위를 벗어난 값을 발견하면 열 유형에 따라 기본 자리 표시자를 대체합니다.

범위를 벗어난 값에 대한 자리 표시자 값

열 유형

자리 표시자 값

date

-9999-01-01 ~ 9999-12-31.

timestamp

0001-01-01 00:00:00 ~ 9999-12-31 23:59:59.999999999.

timestamptz

0001-01-01 00:00:00+00 ~ 9999-12-31 23:59:59.999999999+00.

참고

-InfinityInfinity 값도 세 가지 유형 모두에 대해 각각의 자리 표시자로 대체됩니다.

테이블 복제 상태

연결 오류와 같은 임시 오류가 발생해도 테이블 복제가 멈추지 않습니다. 그러나 지원되지 않는 데이터 타입과 같은 영구적인 오류가 발생하면 테이블 복제가 이루어지지 않습니다.

복제 문제를 해결하거나 복제 흐름에서 테이블이 성공적으로 제거되었는지 확인하려면 테이블 상태 저장소를 확인합니다.

  1. Openflow 런타임 캔버스에서 프로세서 그룹을 마우스 오른쪽 버튼으로 클릭하고 :ui:`Controller Services`를 선택합니다. 컨트롤러 서비스 목록을 보여주는 테이블이 표시됩니다.

  2. Table State Store 레이블이 지정된 행을 찾아 행의 오른쪽에 있는 More 더 많은 옵션을 나타내는 세 개의 세로 점 버튼을 클릭한 다음 :ui:`View State`를 선택합니다.

테이블과 테이블의 현재 상태 목록이 표시됩니다. 검색 상자에 테이블 이름을 입력하여 테이블 이름으로 목록을 필터링합니다. 가능한 상태는 다음과 같습니다.

  • NEW: 테이블 복제가 예약되었지만 복제가 시작되지 않았습니다.

  • SNAPSHOT_REPLICATION: 커넥터가 기존 데이터를 복사하고 있습니다. 이 상태는 모든 레코드가 대상 테이블에 저장될 때까지 표시됩니다.

  • INCREMENTAL_REPLICATION: 커넥터가 변경 사항을 적극적으로 복제하고 있습니다. 이 상태는 스냅샷 복제가 끝난 후에 표시되며 테이블이 복제에서 제거되거나 복제가 실패할 때까지 무기한으로 계속 표시됩니다.

  • FAILED: 오류로 인해 복제가 영구적으로 중지되었습니다.

참고

Openflow 런타임 캔버스에 테이블 상태 변경 사항은 표시되지 않고 현재 테이블 상태만 표시됩니다. 그러나 테이블 상태 변경은 발생 시 로그에 기록됩니다. 다음 로그 메시지를 찾습니다.

Replication state for table <database_name>.<schema_name>.<table_name> changed from <old_state> to <new_state>
Copy

영구적인 오류로 인해 테이블 복제가 불가능한 경우 복제에서 테이블을 제거합니다. 실패의 원인이 된 문제를 해결한 후에는 테이블을 복제에 다시 추가할 수 있습니다. 자세한 내용은 :ref:`테이블 복제 다시 시작 <label-of_postgres_restart_table_replication>`을 참조하세요.

데이터 보존 이해하기

커넥터는 고객 데이터가 자동으로 삭제되지 않는다는 데이터 보존 원칙을 따릅니다. 복제된 데이터에 대한 모든 소유권과 제어 권한은 사용자가 유지하며, 커넥터는 과거 정보를 영구적으로 제거하지 않고 보존합니다.

이 접근 방식에는 다음과 같은 의미가 있습니다.

  • 소스 테이블에서 삭제된 행은 물리적으로 제거되지 않고 대상 테이블에서 일시 삭제됩니다.

  • 소스 테이블에서 삭제된 열은 삭제되지 않고 대상 테이블에서 이름이 변경됩니다.

  • 저널 테이블은 무기한으로 보존되며 자동으로 정리되지 않습니다.

대상 테이블 메타데이터 열

각 대상 테이블에는 복제 정보를 추적하는 다음 메타데이터 열이 포함됩니다.

열 이름

타입

설명

_SNOWFLAKE_INSERTED_AT

TIMESTAMP_NTZ

행이 원래 대상 테이블에 삽입된 시간의 타임스탬프입니다.

_SNOWFLAKE_UPDATED_AT

TIMESTAMP_NTZ

대상 테이블에서 행이 마지막으로 업데이트된 시간의 타임스탬프입니다.

_SNOWFLAKE_DELETED

BOOLEAN

행이 소스 테이블에서 삭제되었는지 여부를 나타냅니다. ``true``인 경우, 행은 일시 삭제되며 소스에 더 이상 존재하지 않습니다.

일시 삭제된 행

소스 테이블에서 행이 삭제될 때 커넥터는 대상 테이블에서 해당 행을 물리적으로 제거하지 않습니다. 대신 _SNOWFLAKE_DELETED 메타데이터를 ``true``로 설정하여 행이 삭제된 것으로 표시됩니다.

이러한 접근 방식을 통해 다음을 수행할 수 있습니다.

  • 감사 또는 규정 준수 목적으로 과거 데이터를 보존합니다.

  • 필요할 때 삭제된 레코드를 쿼리합니다.

  • 요구 사항에 따라 데이터를 영구적으로 제거하는 시기와 방법을 결정합니다.

활성(삭제되지 않은) 행만 쿼리하려면 _SNOWFLAKE_DELETED 열에서 필터링합니다.

SELECT * FROM my_table WHERE _SNOWFLAKE_DELETED = FALSE;
Copy

삭제된 행을 쿼리하려면 다음을 수행합니다.

SELECT * FROM my_table WHERE _SNOWFLAKE_DELETED = TRUE;
Copy

삭제된 열

소스 테이블에서 열이 삭제될 때 커넥터는 대상 테이블에서 해당 열을 삭제하지 않습니다. 대신 과거 값을 보존하기 위해 __SNOWFLAKE_DELETED 접미사를 추가하여 열의 이름이 변경됩니다.

예를 들어, ``EMAIL``이라는 열이 소스 테이블에서 삭제되면 대상 테이블의 이름이 ``EMAIL__SNOWFLAKE_DELETED``로 변경됩니다. 열이 삭제되기 전에 존재했던 행은 원래 값을 유지하는 반면, 삭제 후에 추가된 행은 이 열에 ``NULL``이 있습니다.

이름이 변경된 열에서 과거 값을 계속 쿼리할 수 있습니다.

SELECT EMAIL__SNOWFLAKE_DELETED FROM my_table;
Copy

이름이 변경된 열

변경 데이터 캡처(CDC) 메커니즘의 제한 사항으로 인해 커넥터는 이름이 변경된 열과 삭제된 후 추가된 새 열을 구분할 수 없습니다. 결과적으로, 소스 테이블에서 열의 이름을 변경하는 경우 커넥터는 이를 두 개의 별개 작업(원래 열 삭제 및 새 이름으로 새 열 추가)으로 처리합니다.

예를 들어, 소스 테이블에서 열의 이름을 ``A``에서 ``B``로 변경하는 경우 대상 테이블에는 다음이 포함됩니다.

  • A__SNOWFLAKE_DELETED: 이름 변경 전의 값을 포함합니다. 이름 변경 후에 추가된 행은 이 열에 ``NULL``이 있습니다.

  • B: 이름 변경 이후의 값을 포함합니다. 이름 변경 전에 존재했던 행은 이 열에 ``NULL``이 있습니다.

이름이 변경된 열 쿼리하기

원래 열과 이름이 변경된 열 모두에서 데이터를 단일 통합 열로 검색하려면 COALESCE 또는 CASE 식을 사용합니다.

SELECT
    COALESCE(B, A__SNOWFLAKE_DELETED) AS A_RENAMED_TO_B
FROM my_table;
Copy

또는 CASE 식을 사용합니다.

SELECT
    CASE
        WHEN B IS NOT NULL THEN B
        ELSE A__SNOWFLAKE_DELETED
    END AS A_RENAMED_TO_B
FROM my_table;
Copy

이름이 변경된 열에 대한 뷰 생성하기

대상 테이블을 수동으로 수정하는 대신, 이름이 변경된 열을 단일 통합 열로 표시하는 뷰를 생성할 수 있습니다. 이러한 접근 방식은 원본 데이터를 보존하고 지속적인 복제와 관련된 잠재적인 문제를 방지하므로 권장됩니다.

CREATE VIEW my_table_unified AS
SELECT
    *,
    COALESCE(B, A__SNOWFLAKE_DELETED) AS A_RENAMED_TO_B
FROM my_table;
Copy

중요

대상 테이블 구조를 수동으로 수정(예: 열 삭제 또는 이름 변경)하는 작업은 진행 중인 복제를 방해하고 데이터 불일치를 유발할 수 있으므로 권장되지 않습니다.

저널 테이블

증분 복제 중에 소스 데이터베이스의 변경 사항은 대상 테이블에 병합되기 전에 먼저 저널 테이블에 기록됩니다. 이러한 데이터는 감사, 디버깅 또는 재처리 목적으로 유용할 수 있으므로 커넥터는 저널 테이블에서 데이터를 자동으로 제거하지 않습니다.

저널 테이블은 해당 대상 테이블과 동일한 스키마에 생성되며 다음 명명 규칙을 따릅니다.

<TABLE_NAME>_JOURNAL_<timestamp>_<number>

여기서

  • ``<TABLE_NAME>``은 대상 테이블의 이름입니다.

  • ``<timestamp>``는 Unix epoch 형식의 생성 타임스탬프(1970년 1월 1일 이후의 초)로, 고유성을 보장합니다.

  • ``<number>``는 1에서 시작하며 소스 테이블의 스키마 변경 또는 열 필터의 수정으로 인해 대상 테이블 스키마가 변경될 때마다 증가합니다.

예를 들어 대상 테이블이 ``SALES.ORDERS``인 경우 저널 테이블의 이름은 ``SALES.ORDERS_JOURNAL_1705320000_1``일 수 있습니다.

중요

복제가 진행되는 동안 저널 테이블을 삭제하지 마세요. 활성 저널 테이블을 제거하면 데이터 손실 또는 복제 실패가 발생할 수 있습니다. 해당 소스 테이블이 복제에서 완전히 제거된 후에만 저널 테이블을 삭제합니다.

저널 테이블 저장소 관리하기

오래된 저널 데이터를 제거하여 저장소 비용을 관리해야 하는 경우 더 이상 복제되지 않는 테이블의 저널 테이블을 주기적으로 정리하는 Snowflake 태스크를 생성할 수 있습니다.

저널 정리를 구현하기 전에 다음을 확인합니다.

  • 해당 소스 테이블이 복제에서 완전히 제거되었습니다.

  • 감사 또는 처리 목적으로 더 이상 저널 데이터가 필요하지 않습니다.

자동 정리를 위한 태스크 생성 및 관리에 대한 자세한 내용은 :doc:`태스크 소개 </user-guide/tasks-intro>`를 참조하세요.

다음 단계

커넥터가 데이터 타입을 Snowflake 데이터 타입에 매핑하는 방법을 이해하려면 Openflow Connector for PostgreSQL: 데이터 매핑 섹션을 검토합니다. 커넥터를 설정하려면 Openflow Connector for PostgreSQL 설정 섹션을 검토합니다.