Openflow Connector for MySQL 정보¶
참고
이 커넥터에는 `Snowflake Connector 약관<https://www.snowflake.com/legal/snowflake-connector-terms/>`_이 적용됩니다.
이 항목에서는 Openflow Connector for MySQL 의 기본 개념, 워크플로 및 제한 사항에 대해 설명합니다.
Openflow Connector for MySQL 정보¶
Openflow Connector for MySQL 은 MySQL 데이터베이스 인스턴스를 Snowflake에 연결하고 선택한 테이블의 데이터를 거의 실시간으로 또는 지정된 일정에 따라 복제합니다. 커넥터는 또한 복제된 테이블의 현재 상태와 함께 사용할 수 있는 모든 데이터 변경 사항의 로그를 생성합니다.
사용 사례¶
다음 작업을 수행하려는 경우 이 커넥터를 사용하십시오.
포괄적인 중앙 집중식 보고를 위해 Snowflake로 MySQL 테이블의 CDC 복제
지원되는 MySQL 버전¶
다음 테이블에는 테스트를 거쳐 공식적으로 지원되는 MySQL 버전이 나열되어 있습니다.
8.0 |
8.4 |
|
|---|---|---|
예 |
예 |
|
예 |
예 |
|
예, 버전 3 |
해당 없음. Aurora 8.4는 현재 지원되지 않습니다. |
|
예 |
예 |
|
예 |
예 |
Openflow 요구사항¶
제한 사항¶
커넥터는 MySQL 버전 8 이상을 지원합니다.
커넥터는 MySQL 을 통한 사용자 이름과 비밀번호 인증만 지원합니다.
기본 키가 포함된 데이터베이스 테이블만 복제할 수 있습니다.
커넥터는 16MB보다 큰 개별 값을 복제하지 않습니다. 기본적으로, 이러한 값을 처리하면 연결된 테이블이 영구적으로 실패한 것으로 표시됩니다. 테이블 오류를 방지하려면 너무 큰 값 초과 시 전략 대상 매개 변수를 수정합니다.
커넥터는 Snowflake의 타입 제한 을 초과하는 데이터가 있는 테이블은 복제하지 않습니다.
커넥터는 GEOMETRY, GEOMETRYCOLLECTION, LINESTRING, MULTILINESTRING, MULTIPOINT, MULTIPOLYGON, POINT, POLYGON 유형의 열을 복제하지 않습니다.
커넥터에는 MySQL 의 그룹 복제 제한 이 있습니다. 즉, 단일 트랜잭션은 4 GB 이하 크기의 이진 로그 메시지에 적합해야 합니다.
커넥터는 Amazon Aurora의 판독 프로그램 인스턴스에서 테이블 복제를 지원하지 않습니다.Aurora 판독 프로그램 인스턴스는 자체 바이너리 로그를 유지하지 않기 때문입니다.
커넥터는 기본 키 정의 변경과 숫자 열의 전체 자릿수 또는 스케일 변경을 제외한 소스 테이블 스키마 변경을 지원합니다.
커넥터는 삭제된 열을 다시 추가하는 기능을 지원하지 않습니다.
DATE및DATETIME유형의 경우, 0월 또는 일을 포함하는 모든 값은 Unix epoch에 매핑됩니다(‘1970-01-01’ 또는 ‘1970-01-01T00:00’). 날짜 0(‘0000-00-00’)도 Unix epoch에 매핑됩니다. 연도가 0인 값은 1년으로 변환됩니다(예: ‘0000-05-30 7:59:59’는 ‘0001-05-30T7:59:59’가 됨). 나머지 날짜 및 시간 구성 요소는 변경되지 않습니다.TIMESTAMP유형의 경우, 값 ‘0000-00-00 00:00:00’은 Unix EPOCH에 매핑됩니다(‘1970-01-01T00:00Z’).
참고
특정 테이블 열에 영향을 미치는 제한은 이러한 특정 열을 복제에서 제외하여 우회할 수 있습니다.
워크플로¶
MySQL 데이터베이스 관리자 는 다음 작업을 수행합니다.
MySQL 복제 설정 구성
커넥터에 대한 자격 증명 만들기
(선택 사항) SSL 인증서를 제공합니다.
Snowflake 계정 관리자 는 다음 작업을 수행합니다.
커넥터에 대한 서비스 사용자, 커넥터에 대한 웨어하우스, 복제된 데이터에 대한 대상 데이터베이스를 생성합니다.
커넥터를 설치합니다.
플로우 템플릿의 필수 매개 변수를 지정합니다.
플로우를 실행합니다. 커넥터는 Openflow에서 실행될 때 다음 작업을 수행합니다.
저널 테이블에 대한 스키마를 생성합니다.
복제를 위해 구성된 소스 테이블과 일치하는 스키마 및 대상 테이블을 생성합니다.
테이블 복제를 시작합니다. 복제 프로세스에 대한 자세한 내용은 테이블 복제 방법 섹션을 참조하십시오.
커넥터의 작동 방식¶
다음 섹션에서는 복제, 스키마의 변경, 데이터 보존 등 다양한 시나리오에서 커넥터가 작동하는 방식을 설명합니다.
테이블이 복제되는 방법¶
테이블은 다음 스테이지에서 복제됩니다.
스키마 검사: 커넥터는 열 이름과 유형을 포함하여 소스 테이블의 열을 검색한 다음 Snowflake 및 커넥터의 제한 사항에 따라 열의 유효성을 검사합니다. 유효성 검사에 실패하면 이 스테이지가 실패하고 사이클이 완료됩니다. 이 스테이지가 성공적으로 완료되면 커넥터는 빈 대상 테이블을 생성합니다.
스냅샷 로딩: 커넥터는 소스 테이블에서 사용 가능한 모든 데이터를 대상 테이블에 복사본으로 복사합니다. 이 스테이지에 실패하면 더 이상 데이터가 복제되지 않습니다. 성공적으로 완료되면 소스 테이블의 데이터를 대상 테이블에서 사용할 수 있습니다.
증분 로딩: 커넥터는 소스 테이블의 변경 사항을 추적하고 해당 변경 사항을 대상 테이블에 적용합니다. 이 프로세스는 테이블이 복제에서 제거될 때까지 계속됩니다. 이 스테이지에서 실패하면 문제가 해결될 때까지 소스 테이블의 복제가 영구적으로 중지됩니다.
참고
이 커넥터는 스냅샷 로드 단계를 우회하여 새로 추가된 테이블에 대한 증분 변경 사항 복제를 즉시 시작하도록 구성할 수 있습니다. 이 옵션은 이전에 복제된 데이터가 있는 계정에 커넥터를 다시 설치하며 테이블 스냅샷을 다시 생성하지 않고 복제를 계속하려는 경우에 유용한 경우가 많습니다.
스냅샷 로드 우회 및 증분 로드 프로세스 사용에 대한 자세한 내용은 :doc:`증분 복제<incremental-replication>`를 참조하세요.
중요
연결 오류와 같은 임시 오류로 인해 테이블이 복제되지 않습니다. 지원되지 않는 데이터 타입과 같은 영구 오류로 인해 테이블이 복제되지 않습니다. 영구적인 오류로 인해 테이블을 복제할 수 없는 경우 복제된 테이블 목록에서 테이블을 제거합니다. 실패의 원인이 된 문제를 해결한 후에는 테이블을 복제된 테이블 목록에 다시 추가할 수 있습니다.
테이블 복제 상태¶
연결 오류와 같은 임시 오류가 발생해도 테이블 복제가 멈추지 않습니다. 그러나 지원되지 않는 데이터 타입과 같은 영구적인 오류가 발생하면 테이블 복제가 이루어지지 않습니다.
복제 문제를 해결하거나 복제 흐름에서 테이블이 성공적으로 제거되었는지 확인하려면 테이블 상태 저장소를 확인합니다.
Openflow 런타임 캔버스에서 프로세서 그룹을 마우스 오른쪽 버튼으로 클릭하고 :ui:`Controller Services`를 선택합니다. 컨트롤러 서비스 목록을 보여주는 테이블이 표시됩니다.
Table State Store 레이블이 지정된 행을 찾아 행의 오른쪽에 있는 More
버튼을 클릭한 다음 :ui:`View State`를 선택합니다.
테이블과 테이블의 현재 상태 목록이 표시됩니다. 검색 상자에 테이블 이름을 입력하여 테이블 이름으로 목록을 필터링합니다. 가능한 상태는 다음과 같습니다.
NEW: 테이블 복제가 예약되었지만 복제가 시작되지 않았습니다.
SNAPSHOT_REPLICATION: 커넥터가 기존 데이터를 복사하고 있습니다. 이 상태는 모든 레코드가 대상 테이블에 저장될 때까지 표시됩니다.
INCREMENTAL_REPLICATION: 커넥터가 변경 사항을 적극적으로 복제하고 있습니다. 이 상태는 스냅샷 복제가 끝난 후에 표시되며 테이블이 복제에서 제거되거나 복제가 실패할 때까지 무기한으로 계속 표시됩니다.
FAILED: 오류로 인해 복제가 영구적으로 중지되었습니다.
참고
Openflow 런타임 캔버스에 테이블 상태 변경 사항은 표시되지 않고 현재 테이블 상태만 표시됩니다. 그러나 테이블 상태 변경은 발생 시 로그에 기록됩니다. 다음 로그 메시지를 찾습니다.
Replication state for table <database_name>.<schema_name>.<table_name> changed from <old_state> to <new_state>
영구적인 오류로 인해 테이블 복제가 불가능한 경우 복제에서 테이블을 제거합니다. 실패의 원인이 된 문제를 해결한 후에는 테이블을 복제에 다시 추가할 수 있습니다. 자세한 내용은 :ref:`테이블 복제 다시 시작 <label-of_mysql_restart_table_replication>`을 참조하세요.
데이터 보존 이해하기¶
커넥터는 고객 데이터가 자동으로 삭제되지 않는다는 데이터 보존 원칙을 따릅니다. 복제된 데이터에 대한 모든 소유권과 제어 권한은 사용자가 유지하며, 커넥터는 과거 정보를 영구적으로 제거하지 않고 보존합니다.
이 접근 방식에는 다음과 같은 의미가 있습니다.
소스 테이블에서 삭제된 행은 물리적으로 제거되지 않고 대상 테이블에서 일시 삭제됩니다.
소스 테이블에서 삭제된 열은 삭제되지 않고 대상 테이블에서 이름이 변경됩니다.
저널 테이블은 무기한으로 보존되며 자동으로 정리되지 않습니다.
대상 테이블 메타데이터 열¶
각 대상 테이블에는 복제 정보를 추적하는 다음 메타데이터 열이 포함됩니다.
열 이름 |
타입 |
설명 |
|---|---|---|
|
TIMESTAMP_NTZ |
행이 원래 대상 테이블에 삽입된 시간의 타임스탬프입니다. |
|
TIMESTAMP_NTZ |
대상 테이블에서 행이 마지막으로 업데이트된 시간의 타임스탬프입니다. |
|
BOOLEAN |
행이 소스 테이블에서 삭제되었는지 여부를 나타냅니다. ``true``인 경우, 행은 일시 삭제되며 소스에 더 이상 존재하지 않습니다. |
일시 삭제된 행¶
소스 테이블에서 행이 삭제될 때 커넥터는 대상 테이블에서 해당 행을 물리적으로 제거하지 않습니다. 대신 _SNOWFLAKE_DELETED 메타데이터를 ``true``로 설정하여 행이 삭제된 것으로 표시됩니다.
이러한 접근 방식을 통해 다음을 수행할 수 있습니다.
감사 또는 규정 준수 목적으로 과거 데이터를 보존합니다.
필요할 때 삭제된 레코드를 쿼리합니다.
요구 사항에 따라 데이터를 영구적으로 제거하는 시기와 방법을 결정합니다.
활성(삭제되지 않은) 행만 쿼리하려면 _SNOWFLAKE_DELETED 열에서 필터링합니다.
SELECT * FROM my_table WHERE _SNOWFLAKE_DELETED = FALSE;
삭제된 행을 쿼리하려면 다음을 수행합니다.
SELECT * FROM my_table WHERE _SNOWFLAKE_DELETED = TRUE;
삭제된 열¶
소스 테이블에서 열이 삭제될 때 커넥터는 대상 테이블에서 해당 열을 삭제하지 않습니다. 대신 과거 값을 보존하기 위해 __SNOWFLAKE_DELETED 접미사를 추가하여 열의 이름이 변경됩니다.
예를 들어, ``EMAIL``이라는 열이 소스 테이블에서 삭제되면 대상 테이블의 이름이 ``EMAIL__SNOWFLAKE_DELETED``로 변경됩니다. 열이 삭제되기 전에 존재했던 행은 원래 값을 유지하는 반면, 삭제 후에 추가된 행은 이 열에 ``NULL``이 있습니다.
이름이 변경된 열에서 과거 값을 계속 쿼리할 수 있습니다.
SELECT EMAIL__SNOWFLAKE_DELETED FROM my_table;
이름이 변경된 열¶
변경 데이터 캡처(CDC) 메커니즘의 제한 사항으로 인해 커넥터는 이름이 변경된 열과 삭제된 후 추가된 새 열을 구분할 수 없습니다. 결과적으로, 소스 테이블에서 열의 이름을 변경하는 경우 커넥터는 이를 두 개의 별개 작업(원래 열 삭제 및 새 이름으로 새 열 추가)으로 처리합니다.
예를 들어, 소스 테이블에서 열의 이름을 ``A``에서 ``B``로 변경하는 경우 대상 테이블에는 다음이 포함됩니다.
A__SNOWFLAKE_DELETED: 이름 변경 전의 값을 포함합니다. 이름 변경 후에 추가된 행은 이 열에 ``NULL``이 있습니다.B: 이름 변경 이후의 값을 포함합니다. 이름 변경 전에 존재했던 행은 이 열에 ``NULL``이 있습니다.
이름이 변경된 열 쿼리하기¶
원래 열과 이름이 변경된 열 모두에서 데이터를 단일 통합 열로 검색하려면 COALESCE 또는 CASE 식을 사용합니다.
SELECT
COALESCE(B, A__SNOWFLAKE_DELETED) AS A_RENAMED_TO_B
FROM my_table;
또는 CASE 식을 사용합니다.
SELECT
CASE
WHEN B IS NOT NULL THEN B
ELSE A__SNOWFLAKE_DELETED
END AS A_RENAMED_TO_B
FROM my_table;
이름이 변경된 열에 대한 뷰 생성하기¶
대상 테이블을 수동으로 수정하는 대신, 이름이 변경된 열을 단일 통합 열로 표시하는 뷰를 생성할 수 있습니다. 이러한 접근 방식은 원본 데이터를 보존하고 지속적인 복제와 관련된 잠재적인 문제를 방지하므로 권장됩니다.
CREATE VIEW my_table_unified AS
SELECT
*,
COALESCE(B, A__SNOWFLAKE_DELETED) AS A_RENAMED_TO_B
FROM my_table;
중요
대상 테이블 구조를 수동으로 수정(예: 열 삭제 또는 이름 변경)하는 작업은 진행 중인 복제를 방해하고 데이터 불일치를 유발할 수 있으므로 권장되지 않습니다.
저널 테이블¶
증분 복제 중에 소스 데이터베이스의 변경 사항은 대상 테이블에 병합되기 전에 먼저 저널 테이블에 기록됩니다. 이러한 데이터는 감사, 디버깅 또는 재처리 목적으로 유용할 수 있으므로 커넥터는 저널 테이블에서 데이터를 자동으로 제거하지 않습니다.
저널 테이블은 해당 대상 테이블과 동일한 스키마에 생성되며 다음 명명 규칙을 따릅니다.
<TABLE_NAME>_JOURNAL_<timestamp>_<number>
여기서
``<TABLE_NAME>``은 대상 데이터베이스의 이름입니다.
``<timestamp>``는 Unix epoch 형식의 생성 타임스탬프(1970년 1월 1일 이후의 초)로, 고유성을 보장합니다.
``<number>``는 1에서 시작하며 소스 테이블의 스키마 변경 또는 열 필터의 수정으로 인해 대상 테이블 스키마가 변경될 때마다 증가합니다.
예를 들어 대상 테이블이 ``SALES.ORDERS``인 경우 저널 테이블의 이름은 ``SALES.ORDERS_JOURNAL_1705320000_1``일 수 있습니다.
중요
복제가 진행되는 동안 저널 테이블을 삭제하지 마세요. 활성 저널 테이블을 제거하면 데이터 손실 또는 복제 실패가 발생할 수 있습니다. 해당 소스 테이블이 복제에서 완전히 제거된 후에만 저널 테이블을 삭제합니다.
저널 테이블 저장소 관리하기¶
오래된 저널 데이터를 제거하여 저장소 비용을 관리해야 하는 경우 더 이상 복제되지 않는 테이블의 저널 테이블을 주기적으로 정리하는 Snowflake 태스크를 생성할 수 있습니다.
저널 정리를 구현하기 전에 다음을 확인합니다.
해당 소스 테이블이 복제에서 완전히 제거되었습니다.
감사 또는 처리 목적으로 더 이상 저널 데이터가 필요하지 않습니다.
자동 정리를 위한 태스크 생성 및 관리에 대한 자세한 내용은 :doc:`태스크 소개 </user-guide/tasks-intro>`를 참조하세요.
다음 단계¶
커넥터가 데이터 타입을 Snowflake 데이터 타입에 매핑하는 방법을 이해하려면 Openflow Connector for MySQL: 데이터 매핑 섹션을 검토합니다.
커넥터를 설정하려면 Openflow Connector for MySQL 설정 섹션을 검토합니다.