Openflow Connector for Excel 정보¶
참고
커넥터에는 커넥터 약관 이 적용됩니다.
이 항목에서는 Openflow Connector for Excel 의 기본 개념, 워크플로 및 제한 사항에 대해 설명합니다.
Openflow Connector for Excel 은 AWS S3 인스턴스 또는 Microsoft SharePoint 사이트를 Snowflake와 연결하여 주기적으로 Microsoft Excel 파일을 수집하고 수집된 데이터를 Snowflake 테이블에 저장합니다.
커넥터는 다음과 같은 수집을 지원합니다.
모든 Excel 스프레드시트
지정된 Excel 스프레드시트
Excel 통합 문서에 있는 데이터의 지정 범위
커넥터는 잘라내기 및 로딩 수집만 수행합니다. 즉, 파일이 수집될 때마다 Snowflake의 기존 데이터가 파일의 새로운 데이터로 완전히 대체됩니다.
다음 작업을 수행하려는 경우 이 커넥터를 사용하십시오.
보고 및 데이터 분석을 위해 Microsoft Excel 스프레드시트의 데이터를 Snowflake 테이블로 로드
보고 및 분석을 위해 SharePoint 에 있는 Excel 스프레드시트의 데이터를 Snowflake 테이블로 로드
워크플로¶
데이터 소스에 따라 커넥터의 워크플로는 다음과 같습니다.
AWS S3 인스턴스 연결을 위한 워크플로¶
AWS 관리자는 다음 작업을 수행합니다.
AWS 계정에 IAM 사용자와 자격 증명을 생성합니다.
S3 인스턴스가 존재하는 AWS 리전(예: us-west-2)을 기록합니다.
수집할 파일을 식별합니다.
Snowflake 계정 관리자는 다음 작업을 수행합니다.
Snowflake 내에서 원하는 데이터베이스와 스키마 이름을 설정합니다.
커넥터가 사용할 웨어하우스를 지정합니다.
커넥터에서 사용하는 Snowflake 사용자와 이 사용자의 역할을 구성합니다.
데이터 엔지니어는 다음 작업을 수행합니다.
커넥터 정의 파일을 다운로드하여 Snowflake Openflow 캔버스로 가져옵니다.
커넥터 매개 변수를 구성합니다.
AWS 자격 증명을 제공합니다.
Snowflake 사용자 자격 증명 및 구성을 제공합니다.
필터 공급자를 통해 수집되는 오브젝트의 기준을 정의합니다.
Openflow 캔버스 내에서 플로우를 시작합니다. 실행 시 플로우는 다음 작업을 수행합니다.
S3 버킷에서 지정된 파일을 다운로드합니다.
관련 데이터를 추출합니다.
Snowflake 데이터베이스에 구성된 대상 테이블을 생성합니다.
처리된 데이터를 지정된 Snowflake 테이블에 로드합니다.
제한 사항¶
현재는 .xlsx 파일(Office 2007 이상 버전)만 지원됩니다. 다음 파일 유형은 지원되지 않습니다.
.xls 파일(Office 97 ~ Office 2003 버전)
.xlsm 파일(매크로 지원 통합 문서)
.xlsb 파일(이진 통합 문서)
대규모 .xlsx 파일은 Openflow 런타임에 오버로드가 발생하거나 다른 커넥터 플로우에 영향을 미치는 문제를 유발할 수 있습니다. 메모리 제한으로 인해 파일 크기(커넥터가 모든 노드 리소스를 사용할 수 있다고 가정)는 다음보다 크지 않아야 합니다.
Small
런타임 노드의 경우 2 MB.Medium
런타임 노드의 경우 10 MB.Large
런타임 노드의 경우 20 MB.
동일한 열 내에 데이터 타입(예: 숫자와 문자열)이 혼합된 열의 경우:
값은 Snowflake 테이블에 VARIANTs 로 저장됩니다.
수집된 데이터의 스키마(즉, 열의 데이터 타입)는 현재 처음 10개의 행을 사용하여 추론됩니다. 처음 10개의 행이 같은 유형인 경우 열 유형이 혼합으로 제대로 인식되지 않을 수 있습니다.
특정 범위 없이 전체 스프레드시트를 수집하려면 A1 셀에서 시작하는 첫 번째 행이 헤더 행이어야 하며 열 이름을 포함해야 합니다.