Openflow Connector for SQL Server 정보¶

참고

이 커넥터에는 `Snowflake Connector 약관<https://www.snowflake.com/legal/snowflake-connector-terms/>`_이 적용됩니다.

이 항목에서는 |Sqlserver|의 기본 개념, 워크플로 및 제한 사항에 대해 설명합니다.

Openflow Connector for SQL Server 정보¶

Openflow Connector for SQL Server 는 SQL Server 데이터베이스 인스턴스를 Snowflake에 연결하고 선택한 테이블의 데이터를 거의 실시간으로 또는 일정에 따라 복제합니다. 커넥터는 SQL Server `변경 내용 추적 <https://learn.microsoft.com/en-us/sql/relational-databases/track-changes/about-change-tracking-sql-server>`_을 사용하여 복제된 테이블에 대한 변경 사항을 감지하고 적용합니다. 변경 데이터는 복제된 테이블의 현재 상태와 함께 저널 테이블에 기록됩니다.

사용 사례¶

다음 작업을 수행하려는 경우 이 커넥터를 사용하십시오.

포괄적인 중앙 집중식 보고를 위해 Snowflake를 사용한 SQL Server 데이터의 동기화.

지원되는 SQL 서버 버전¶

다음 SQL Server 데이터베이스 버전 및 플랫폼이 지원됩니다.

Microsoft SQL Server 2022
Microsoft SQL Server 2019
Microsoft SQL Server 2017
Microsoft SQL Server 2016
`Azure SQL Database<https://learn.microsoft.com/azure/azure-sql/database/?view=azuresql>`_
`Azure SQL Managed Instance<https://learn.microsoft.com/azure/azure-sql/managed-instance/?view=azuresql>`_
`SQL Server용 AWS RDS<https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/CHAP_SQLServer.html>`_
SQL Server용 Google Cloud SQL

참고

커넥터는 SQL Server 2008부터 사용 가능한 SQL Server 변경 내용 추적을 사용합니다. 이전 버전은 이 기능을 지원하지 않으며 커넥터와 호환되지 않습니다.

Openflow 요구사항¶

런타임 크기는 중간 이상이어야 합니다. 대용량 데이터를 복제할 때는, 특히 행 크기가 클 경우 더 큰 런타임을 사용합니다.
해당 커넥터는 다중 노드 Openflow 런타임을 지원하지 않습니다. 이 커넥터의 런타임을 구성할 때 Min nodes 및 :ui:`Max nodes`를 ``1``로 설정합니다.

제한 사항¶

단일 런타임 인스턴스에서 동일한 유형의 여러 커넥터를 실행할 수 없습니다.
커넥터는 SQL 서버를 통한 사용자 이름 및 비밀번호 인증만 지원합니다.
커넥터는 Snowflake에서 지원하는 데이터 타입을 가진 테이블만 복제합니다. 이러한 데이터 타입의 목록은 데이터 타입 요약 섹션을 참조하십시오.
커넥터는 기본 키가 포함된 데이터베이스 테이블만 복제합니다.
기본값이 있는 새 NOT NULL 열이 소스 데이터베이스에 추가될 때 커넥터는 Snowflake 데이터베이스의 기존 레코드를 업데이트하지 않습니다.
커넥터는 열 필터 JSON 에 포함된 목록에 새 열이 추가될 때 Snowflake 데이터베이스의 기존 레코드를 업데이트하지 않습니다.
소스 데이터베이스 중 하나에서 열을 삭제한 후 동일한 이름으로 다시 추가하면 추가 삭제로 인해 오류가 발생합니다.
열 필터 JSON에 열을 포함한 후 제외하고 추가로 포함하려고 시도하면 오류가 발생합니다.
커넥터는 기본 키 정의 변경, 전체 자릿수 변경 또는 숫자 열의 소수 자릿수 변경을 제외한 소스 테이블 스키마 변경을 지원합니다.
커넥터는 테이블 잘라내기 작업을 지원하지 않습니다.
커넥터는 삭제된 열을 다시 추가하는 기능을 지원하지 않습니다.
커넥터는 16MB보다 큰 개별 값을 복제하지 않습니다. 기본적으로, 이러한 값을 처리하면 연결된 테이블이 영구적으로 실패한 것으로 표시됩니다. 테이블 오류를 방지하려면 너무 큰 값 초과 시 전략 대상 매개 변수를 수정합니다.

참고

특정 테이블 열에 영향을 미치는 제한은 이러한 특정 열을 복제에서 제외하여 우회할 수 있습니다.

워크플로¶

다음 워크플로에서는 |Sqlserver|를 설정하고 실행하는 단계를 간략하게 설명합니다.

SQL 서버 데이터베이스 관리자는 다음 작업을 수행합니다.
1. SQL Server 복제 설정을 구성하고 복제되는 데이터베이스 및 테이블에 대한 변경 추적을 활성화합니다.
2. 커넥터에 대한 자격 증명을 생성합니다.
3. (선택 사항) SSL을 통해 SQL Server 인스턴스에 연결하기 위한 SSL 인증서를 제공합니다.
Snowflake 계정 관리자는 다음 작업을 수행합니다.
1. 커넥터에 대한 서비스 사용자, 복제된 데이터를 저장할 대상 데이터베이스, 커넥터에 대한 웨어하우스를 생성합니다.
2. 커넥터를 설치합니다.
3. 커넥터 플로우 정의의 필수 매개 변수를 지정합니다.
4. 흐름을 실행합니다.

커넥터는 Openflow에서 실행될 때 다음을 수행합니다.

복제를 위해 구성된 소스 테이블과 일치하는 스키마 및 대상 테이블을 생성합니다.
테이블 복제 수명 주기에 따라 복제를 시작합니다.

자세한 내용은 테이블이 복제되는 방법 섹션을 참조하십시오.

커넥터의 작동 방식¶

다음 섹션에서는 복제, 스키마의 변경, 데이터 보존 등 다양한 시나리오에서 커넥터가 작동하는 방식을 설명합니다.

변경 내용 추적 동작¶

커넥터는 SQL Server `변경 내용 추적 <https://learn.microsoft.com/en-us/sql/relational-databases/track-changes/about-change-tracking-sql-server>`_(CT)을 사용하여 소스 테이블의 변경 사항을 감지합니다. 변경 내용 추적은 폴링 간격 사이의 변경 사항의 순 효과를 보고합니다. 두 개의 연속 폴링 사이에 행이 여러 번 업데이트되는 경우 커넥터에는 해당 행의 최신 버전만 표시됩니다. 중간 상태는 보존되지 않습니다.

따라서 커넥터는 대상 테이블을 소스와 동기화된 상태로 유지하는 것이 목표인 데이터 동기화 사용 사례에 적합합니다. 행에 대한 모든 중간 변경 사항을 캡처해야 하는 감사 또는 기록 사용 사례에는 적합하지 않습니다.

데이터 복제¶

커넥터는 단일 SQL Server 인스턴스의 여러 SQL Server 데이터베이스에서 테이블 복제를 지원합니다. 커넥터는 대상 Snowflake 데이터베이스의 별도 스키마에 있는 다른 데이터베이스에서 복제된 테이블을 생성합니다.

소스 데이터베이스 이름, 소스 스키마 이름, 테이블 이름을 다음 형식으로 결합하여 복제된 테이블을 참조합니다.

<database_name>.<schema_name>.<table_name>

The name of the destination schema is determined by the Destination Schema Pattern parameter. For more information, see SQLServer 대상 매개 변수. By default, the destination schema name is the source database name and source schema name joined by an underscore, so the fully qualified name of a destination table is:

<destination_database>.<source_database_name>_<source_schema_name>.<source_table_name>

테이블이 복제되는 방법¶

커넥터는 다음 스테이지에서 테이블을 복제합니다.

스키마 검사: 커넥터는 열 이름과 유형을 포함하여 소스 테이블의 열을 검색한 후 Snowflake 및 커넥터의 제한 사항에 따라 열의 유효성을 검사합니다. 유효성 검사에 실패하면 이 스테이지가 실패하고 사이클이 완료됩니다. 이 스테이지가 성공적으로 완료되면 커넥터는 빈 대상 테이블을 생성합니다.
스냅샷 로딩: 커넥터는 소스 테이블에서 사용 가능한 모든 데이터를 대상 테이블에 복사합니다. 이 스테이지에 실패하면 커넥터가 데이터 복제를 중지합니다. 성공적으로 완료되면 소스 테이블의 데이터를 대상 테이블에서 사용할 수 있습니다.
증분 로딩: 커넥터는 소스 테이블의 변경 사항을 추적하고 해당 변경 사항을 대상 테이블에 적용합니다. 이 프로세스는 테이블이 복제에서 제거될 때까지 계속됩니다. 이 스테이지에서 실패하면 문제가 해결될 때까지 소스 테이블의 복제가 영구적으로 중지됩니다.

스냅샷 로드 우회 및 증분 로드 프로세스 사용에 대한 내용은 :doc:`증분 복제<incremental-replication>`를 참조하세요.

테이블 복제 상태¶

연결 오류와 같은 임시 오류가 발생해도 테이블 복제가 멈추지 않습니다. 그러나 지원되지 않는 데이터 타입과 같은 영구적인 오류가 발생하면 테이블 복제가 이루어지지 않습니다.

복제 문제를 해결하거나 복제 흐름에서 테이블이 성공적으로 제거되었는지 확인하려면 테이블 상태 저장소를 확인합니다.

Openflow 런타임 캔버스에서 프로세서 그룹을 마우스 오른쪽 버튼으로 클릭하고 :ui:`Controller Services`를 선택합니다. 컨트롤러 서비스 목록을 보여주는 테이블이 표시됩니다.
Table State Store 레이블이 지정된 행을 찾아 행의 오른쪽에 있는 More 버튼을 클릭한 다음 :ui:`View State`를 선택합니다.

테이블과 테이블의 현재 상태 목록이 표시됩니다. 검색 상자에 테이블 이름을 입력하여 테이블 이름으로 목록을 필터링합니다. 가능한 상태는 다음과 같습니다.

NEW: 테이블 복제가 예약되었지만 복제가 시작되지 않았습니다.
SNAPSHOT_REPLICATION: 커넥터가 기존 데이터를 복사하고 있습니다. 이 상태는 모든 레코드가 대상 테이블에 저장될 때까지 표시됩니다.
INCREMENTAL_REPLICATION: 커넥터가 변경 사항을 적극적으로 복제하고 있습니다. 이 상태는 스냅샷 복제가 끝난 후에 표시되며 테이블이 복제에서 제거되거나 복제가 실패할 때까지 무기한으로 계속 표시됩니다.
FAILED: 오류로 인해 복제가 영구적으로 중지되었습니다.

참고

Openflow 런타임 캔버스에 테이블 상태 변경 사항은 표시되지 않고 현재 테이블 상태만 표시됩니다. 그러나 테이블 상태 변경은 발생 시 로그에 기록됩니다. 다음 로그 메시지를 찾습니다.

Replication state for table <database_name>.<schema_name>.<table_name> changed from <old_state> to <new_state>

영구적인 오류로 인해 테이블 복제가 불가능한 경우 복제에서 테이블을 제거합니다. 실패의 원인이 된 문제를 해결한 후에는 테이블을 복제에 다시 추가할 수 있습니다. 자세한 내용은 :ref:`테이블 복제 다시 시작 <label-of_sql_server_restart_table_replication>`을 참조하세요.

소스 데이터베이스 잠금 동작¶

스냅샷 및 증분 복제 중에 커넥터는 소스 데이터베이스 테이블에서 데이터를 읽어 행 데이터를 검색하고 변경 사항을 추적합니다.

SQL Server의 기본 READ COMMITTED 격리 수준에서 이러한 읽기 작업은 소스 테이블에 대한 공유 잠금을 획득합니다. 다른 데이터베이스 클라이언트가 동시에 동일한 테이블에 대해 충돌하는 잠금을 보유하는 경우 교착 상태가 발생할 수 있으며, 여기서 SQL Server가 충돌하는 세션 중 하나를 종료합니다.

커넥터와 다른 데이터베이스 클라이언트 간의 교착 상태를 방지하려면 소스 데이터베이스에 대한 `커밋된 스냅샷 격리 읽기(RCSI) <https://learn.microsoft.com/en-us/dotnet/framework/data/adonet/sql/snapshot-isolation-in-sql-server>`_를 활성화합니다.

ALTER DATABASE <database> SET READ_COMMITTED_SNAPSHOT ON;

RCSI가 활성화된 경우 읽기 작업은 공유 잠금 대신 행 버전 관리를 사용하므로, 소스 데이터베이스에서 커넥터와 동시 쓰기 트랜잭션 간의 잠금 경합이 제거됩니다.

조심

Enabling RCSI changes the semantics of the default READ COMMITTED isolation level for all connections to the database, not just the connector. Applications that rely on the default lock-based READ COMMITTED behavior (for example, expecting readers to block on concurrent uncommitted writes) can see different results after the change. Test the impact in a non-production environment before enabling RCSI in production.

데이터 보존 이해하기¶

커넥터는 고객 데이터가 자동으로 삭제되지 않는다는 데이터 보존 원칙을 따릅니다. 복제된 데이터에 대한 모든 소유권과 제어 권한은 사용자가 유지하며, 커넥터는 과거 정보를 영구적으로 제거하지 않고 보존합니다.

이 접근 방식에는 다음과 같은 의미가 있습니다.

소스 테이블에서 삭제된 행은 물리적으로 제거되지 않고 대상 테이블에서 일시 삭제됩니다.
소스 테이블에서 삭제된 열은 삭제되지 않고 대상 테이블에서 이름이 변경됩니다.
저널 테이블은 무기한으로 보존되며 자동으로 정리되지 않습니다.

대상 테이블 메타데이터 열¶

각 대상 테이블에는 복제 정보를 추적하는 다음 메타데이터 열이 포함됩니다.


열 이름	타입	설명
`_SNOWFLAKE_INSERTED_AT`	TIMESTAMP_NTZ	행이 원래 대상 테이블에 삽입된 시간의 타임스탬프입니다.
`_SNOWFLAKE_UPDATED_AT`	TIMESTAMP_NTZ	대상 테이블에서 행이 마지막으로 업데이트된 시간의 타임스탬프입니다.
`_SNOWFLAKE_DELETED`	BOOLEAN	행이 소스 테이블에서 삭제되었는지 여부를 나타냅니다. ``true``인 경우, 행은 일시 삭제되며 소스에 더 이상 존재하지 않습니다.

일시 삭제된 행¶

소스 테이블에서 행이 삭제될 때 커넥터는 대상 테이블에서 해당 행을 물리적으로 제거하지 않습니다. 대신 _SNOWFLAKE_DELETED 메타데이터를 ``true``로 설정하여 행이 삭제된 것으로 표시됩니다.

이러한 접근 방식을 통해 다음을 수행할 수 있습니다.

감사 또는 규정 준수 목적으로 과거 데이터를 보존합니다.
필요할 때 삭제된 레코드를 쿼리합니다.
요구 사항에 따라 데이터를 영구적으로 제거하는 시기와 방법을 결정합니다.

활성(삭제되지 않은) 행만 쿼리하려면 _SNOWFLAKE_DELETED 열에서 필터링합니다.

SELECT * FROM my_table WHERE _SNOWFLAKE_DELETED = FALSE;

삭제된 행을 쿼리하려면 다음을 수행합니다.

SELECT * FROM my_table WHERE _SNOWFLAKE_DELETED = TRUE;

삭제된 열¶

소스 테이블에서 열이 삭제될 때 커넥터는 대상 테이블에서 해당 열을 삭제하지 않습니다. 대신 과거 값을 보존하기 위해 __SNOWFLAKE_DELETED 접미사를 추가하여 열의 이름이 변경됩니다.

예를 들어, ``EMAIL``이라는 열이 소스 테이블에서 삭제되면 대상 테이블의 이름이 ``EMAIL__SNOWFLAKE_DELETED``로 변경됩니다. 열이 삭제되기 전에 존재했던 행은 원래 값을 유지하는 반면, 삭제 후에 추가된 행은 이 열에 ``NULL``이 있습니다.

이름이 변경된 열에서 과거 값을 계속 쿼리할 수 있습니다.

SELECT EMAIL__SNOWFLAKE_DELETED FROM my_table;

이름이 변경된 열¶

변경 데이터 캡처(CDC) 메커니즘의 제한 사항으로 인해 커넥터는 이름이 변경된 열과 삭제된 후 추가된 새 열을 구분할 수 없습니다. 결과적으로, 소스 테이블에서 열의 이름을 변경하는 경우 커넥터는 이를 두 개의 별개 작업(원래 열 삭제 및 새 이름으로 새 열 추가)으로 처리합니다.

예를 들어, 소스 테이블에서 열의 이름을 ``A``에서 ``B``로 변경하는 경우 대상 테이블에는 다음이 포함됩니다.

A__SNOWFLAKE_DELETED: 이름 변경 전의 값을 포함합니다. 이름 변경 후에 추가된 행은 이 열에 ``NULL``이 있습니다.
B: 이름 변경 이후의 값을 포함합니다. 이름 변경 전에 존재했던 행은 이 열에 ``NULL``이 있습니다.

이름이 변경된 열 쿼리하기¶

원래 열과 이름이 변경된 열 모두에서 데이터를 단일 통합 열로 검색하려면 COALESCE 또는 CASE 식을 사용합니다.

SELECT
    COALESCE(B, A__SNOWFLAKE_DELETED) AS A_RENAMED_TO_B
FROM my_table;

또는 CASE 식을 사용합니다.

SELECT
    CASE
        WHEN B IS NOT NULL THEN B
        ELSE A__SNOWFLAKE_DELETED
    END AS A_RENAMED_TO_B
FROM my_table;

이름이 변경된 열에 대한 뷰 생성하기¶

대상 테이블을 수동으로 수정하는 대신, 이름이 변경된 열을 단일 통합 열로 표시하는 뷰를 생성할 수 있습니다. 이러한 접근 방식은 원본 데이터를 보존하고 지속적인 복제와 관련된 잠재적인 문제를 방지하므로 권장됩니다.

CREATE VIEW my_table_unified AS
SELECT
    *,
    COALESCE(B, A__SNOWFLAKE_DELETED) AS A_RENAMED_TO_B
FROM my_table;

중요

대상 테이블 구조를 수동으로 수정(예: 열 삭제 또는 이름 변경)하는 작업은 진행 중인 복제를 방해하고 데이터 불일치를 유발할 수 있으므로 권장되지 않습니다.

저널 테이블¶

증분 복제 중에 소스 데이터베이스의 변경 사항은 대상 테이블에 병합되기 전에 먼저 저널 테이블에 기록됩니다. 이러한 데이터는 감사, 디버깅 또는 재처리 목적으로 유용할 수 있으므로 커넥터는 저널 테이블에서 데이터를 자동으로 제거하지 않습니다.

저널 테이블은 해당 대상 테이블과 동일한 스키마에 생성되며 다음 명명 규칙을 따릅니다.

<TABLE_NAME>_JOURNAL_<timestamp>_<number>

여기서

``<TABLE_NAME>``은 대상 테이블의 이름입니다.
``<timestamp>``는 Unix epoch 형식의 생성 타임스탬프(1970년 1월 1일 이후의 초)로, 고유성을 보장합니다.
``<number>``는 1에서 시작하며 소스 테이블의 스키마 변경 또는 열 필터의 수정으로 인해 대상 테이블 스키마가 변경될 때마다 증가합니다.

예를 들어 대상 테이블이 ``SALES.ORDERS``인 경우 저널 테이블의 이름은 ``SALES.ORDERS_JOURNAL_1705320000_1``일 수 있습니다.

중요

복제가 진행되는 동안 저널 테이블을 삭제하지 마세요. 활성 저널 테이블을 제거하면 데이터 손실 또는 복제 실패가 발생할 수 있습니다. 해당 소스 테이블이 복제에서 완전히 제거된 후에만 저널 테이블을 삭제합니다.

저널 테이블 저장소 관리하기¶

오래된 저널 데이터를 제거하여 저장소 비용을 관리해야 하는 경우 더 이상 복제되지 않는 테이블의 저널 테이블을 주기적으로 정리하는 Snowflake 태스크를 생성할 수 있습니다.

저널 정리를 구현하기 전에 다음을 확인합니다.

해당 소스 테이블이 복제에서 완전히 제거되었습니다.
감사 또는 처리 목적으로 더 이상 저널 데이터가 필요하지 않습니다.

자동 정리를 위한 태스크 생성 및 관리에 대한 자세한 내용은 :doc:`태스크 소개 </user-guide/tasks-intro>`를 참조하세요.

다음 단계¶

커넥터가 데이터 타입을 Snowflake 데이터 타입에 매핑하는 방법을 이해하려면 Openflow Connector for SQL Server: 데이터 매핑 섹션을 검토합니다.

커넥터를 설정하려면 Openflow Connector for SQL Server 설정 섹션을 검토합니다.