데이터 파이프라인 소개

데이터 파이프라인은 연속 데이터 로드를 변환하고 최적화하는 것과 관련된 여러 수작업 단계를 자동화합니다. “원시” 데이터는 임시 저장에 사용되는 스테이징 테이블에 임시로 로드되고 일련의 SQL 문을 사용하여 변환된 후 대상 보고 테이블에 삽입되는 경우가 많습니다. 이 프로세스의 가장 효율적인 워크플로는 새 데이터 또는 수정된 데이터만 변환하는 것입니다.

이 항목의 내용:

연속 데이터 파이프라인에 포함된 기능

Snowflake는 연속 데이터 파이프라인을 활성화하기 위해 다음과 같은 기능을 제공합니다.

연속 데이터 로딩:

연속 데이터 로딩에서 제공되는 옵션은 다음과 같습니다.

연속 데이터 변환:

동적 테이블은 데이터 엔지니어링을 단순화하고 간단히 데이터를 변환하는 방법을 제공하는 선언적 자동 데이터 파이프라인입니다. 데이터 변환 단계를 일련의 작업으로 정의하는 대신, 변환의 최종 상태를 간단히 정의할 수 있습니다.

자세한 내용은 동적 테이블 섹션을 참조하십시오.

데이터 추적 변경:

스트림 오브젝트는 삽입 및 기타 데이터 조작 언어(DML) 변경 등 테이블(예: 스테이징 테이블)에 대한 변경 데이터 캡처(CDC) 정보의 델타를 기록합니다. 스트림을 사용하면 두 트랜잭션 시점 간에 행 수준에서 테이블 변경 사항을 쿼리하고 사용할 수 있습니다.

연속 데이터 파이프라인에서 테이블 스트림은 연속 데이터 로딩을 사용하여 비즈니스 애플리케이션의 데이터로 스테이징 테이블 및 모든 다운스트림 테이블이 채워지고 SQL 문을 사용하여 추가 처리를 위해 준비되는 시점을 기록합니다.

자세한 내용은 테이블 스트림을 사용한 변경 내용 추적 섹션을 참조하십시오.

반복 태스크:

태스크 오브젝트는 저장 프로시저를 호출하는 문 등 SQL 문을 실행하기 위한 반복 일정을 정의합니다. 더 복잡한 주기적 프로세스를 지원하기 위해 작업이 연속 실행되도록 함께 연결할 수 있습니다.

태스크는 선택적으로 테이블 스트림을 사용하여 새 데이터 또는 변경된 데이터를 연속적으로 처리하는 편리한 방법을 제공하기도 합니다. 태스크는 스트림에서 나타나는 새 행 또는 변경된 행을 변환할 수 있습니다. 태스크 실행이 예약될 때마다, 태스크는 스트림에 테이블의 변경 데이터가 포함되어 있는지 확인(SYSTEM$STREAM_HAS_DATA 사용)하고 해당 변경 데이터를 사용하거나 변경 데이터가 없을 경우 현재 실행을 건너뜁니다.

사용자는 데이터를 처리하고 여러 대상 테이블로 이동시키기 위해 연속 SQL 문을 실행하는 간단한 트리형 작업 구조를 정의할 수 있습니다.

자세한 내용은 작업을 사용하여 일정에 따라 SQL 문 실행하기 섹션을 참조하십시오.