데이터 파이프라인 소개

데이터 파이프라인은 연속 데이터 로드를 변환하고 최적화하는 것과 관련된 여러 수작업 단계를 자동화합니다. 《원시》 데이터는 임시 저장에 사용되는 스테이징 테이블에 임시로 로드되고 일련의 SQL 문을 사용하여 변환된 후 대상 보고 테이블에 삽입되는 경우가 많습니다. 이 프로세스의 가장 효율적인 워크플로는 새 데이터 또는 수정된 데이터만 변환하는 것입니다.

이 항목의 내용:

연속 데이터 파이프라인에 포함된 기능

Snowflake는 연속 데이터 파이프라인을 활성화하기 위해 다음과 같은 기능을 제공합니다.

연속 데이터 로딩

연속 데이터 로딩에서 제공되는 옵션은 다음과 같습니다.

연속 데이터 변환

동적 테이블은 데이터 엔지니어링을 단순화하고 간단히 데이터를 변환하는 방법을 제공하는 선언적 자동 데이터 파이프라인입니다. 데이터 변환 단계를 일련의 작업으로 정의하는 대신, 변환의 최종 상태를 간단히 정의할 수 있습니다.

자세한 내용은 동적 테이블 섹션을 참조하십시오.

데이터 추적 변경

스트림 오브젝트는 삽입 및 기타 데이터 조작 언어(DML) 변경 등 테이블(예: 스테이징 테이블)에 대한 변경 데이터 캡처(CDC) 정보의 델타를 기록합니다. 스트림을 사용하면 두 트랜잭션 시점 간에 행 수준에서 테이블 변경 사항을 쿼리하고 사용할 수 있습니다.

연속 데이터 파이프라인에서 테이블 스트림은 연속 데이터 로딩을 사용하여 비즈니스 애플리케이션의 데이터로 스테이징 테이블 및 모든 다운스트림 테이블이 채워지고 SQL 문을 사용하여 추가 처리를 위해 준비되는 시점을 기록합니다.

자세한 내용은 테이블 스트림을 사용한 변경 내용 추적 섹션을 참조하십시오.

반복 태스크

태스크 오브젝트는 저장 프로시저를 호출하는 문 등 SQL 문을 실행하기 위한 반복 일정을 정의합니다. 더 복잡한 주기적 프로세스를 지원하기 위해 작업이 연속 실행되도록 함께 연결할 수 있습니다.

태스크는 선택적으로 테이블 스트림을 사용하여 새 데이터 또는 변경된 데이터를 연속적으로 처리하는 편리한 방법을 제공하기도 합니다. 태스크는 스트림에서 나타나는 새 행 또는 변경된 행을 변환할 수 있습니다. 태스크 실행이 예약될 때마다, 태스크는 스트림에 테이블의 변경 데이터가 포함되어 있는지 확인(SYSTEM$STREAM_HAS_DATA 사용)하고 해당 변경 데이터를 사용하거나 변경 데이터가 없을 경우 현재 실행을 건너뜁니다.

사용자는 데이터를 처리하고 여러 대상 테이블로 이동시키기 위해 연속 SQL 문을 실행하는 간단한 트리형 작업 구조를 정의할 수 있습니다.

자세한 내용은 작업을 사용하여 일정에 따라 SQL 문 실행 섹션을 참조하십시오.