Cortex Parse Document 개요¶
PARSE_DOCUMENT 함수는 내부 또는 외부 스테이지에 저장된 문서에서 텍스트나 레이아웃을 추출하는 기능을 제공하는 Cortex AI 작업 전용 함수 입니다. PARSE_DOCUMENT는 강력한 광학 문자 인식(OCR) 기능과 머신 러닝 모델을 결합하여 텍스트 콘텐츠, 테이블에 저장된 정보, PDF 문서의 구조 요소를 파악합니다. PARSE_DOCUMENT 함수를 사용하여 텍스트와 문서 레이아웃을 추출하여 대용량 비즈니스 문서 아카이브에서 정보 검색 시스템을 구축하고, 추출된 정보를 구조화된 Snowflake 테이블에 로드하여 애플리케이션에서 사용할 수 있습니다.
Parse Document 작동 방식¶
PARSE_DOCUMENT 함수는 OCR(기본값) 및 PDF 문서 처리를 위한 LAYOUT 모드를 제공합니다.
PARSE_DOCUMENT OCR(기본값) 모드는 텍스트가 많은 문서에서 텍스트를 추출하는 데 최적화되어 있습니다. 의미 체계가 명확하지 않은 문서에서 빠르고 쉽고 효과적으로 텍스트를 추출할 때 권장되는 옵션입니다.
PARSE_DOCUMENT LAYOUT(선택 사항) 모드는 테이블과 같은 텍스트와 레이아웃 요소를 추출하는 데 최적화되었습니다. 검색 정보 시스템을 최적화하기 위해 문서 기술 자료의 컨텍스트를 개선하고 대규모 언어 모델(LLM)을 추론하는 데 권장되는 옵션입니다. 예를 들어, LAYOUT 요소를 사용하여 텍스트 섹션을 분리하여 보다 표적화된 엔터티 추출 작업을 수행할 수 있습니다.
Parse Document 사용하기¶
Cortex PARSE_DOCUMENT 함수는 SQL 함수입니다. Snowflake에서 전적으로 호스팅 및 관리되므로 사용할 때 별도의 설정이 필요하지 않습니다. 즉, PARSE_DOCUMENT 함수를 PDF 문서가 저장된 스테이지로 지정하여 텍스트 또는 레이아웃 데이터를 추출할 수 있습니다. 다음 예제에서는 parse_document
데이터베이스와 demo
스키마의 documents
스테이지에 있는 document_1.pdf
파일에서 텍스트와 레이아웃 정보를 추출합니다.
참고
PARSE_DOCUMENT 는 현재 사용자 지정 네트워크 정책 과 호환되지 않습니다.
SELECT
SNOWFLAKE.CORTEX.PARSE_DOCUMENT(
@parse_document.demo.documents,
'document_1.pdf',
{'mode': 'LAYOUT'}
) AS layout;
PARSE_DOCUMENT는 내부 Snowflake 스테이지 또는 외부 스테이지에 저장된 문서의 처리를 지원합니다. 스테이지를 생성할 때 서버 측 암호화 는 필수입니다. 그렇지 않으면, PARSE_DOCUMENT 는 제공된 파일이 예상 형식이 아니거나 클라이언트 측에서 암호화되었다는 오류를 반환합니다.
CREATE STAGE input_stage
DIRECTORY = ( ENABLE = true )
ENCRYPTION = ( TYPE = 'SNOWFLAKE_SSE' );
입력 요구 사항¶
Cortex PARSE_DOCUMENT 함수는 현재 하드카피로 스캔한 문서가 아닌 디지털 생성 문서에 최적화되어 있습니다. 다음 테이블은 입력 설명서에 대한 제한 사항과 요구 사항을 나열합니다.
최대 파일 크기 |
100 MB |
문서당 최대 페이지 수 |
100페이지 |
허용 파일 유형 |
|
스테이지 암호화 |
서버 측 암호화 |
참고
PARSE_DOCUMENT는 현재 중국어, 일본어, 태국어 등 라틴 문자가 아닌 문자를 사용하는 언어에는 최적화되어 있지 않습니다. 미리 보기에서는 프랑스어, 포르투갈어, 이탈리아어, 독일어, 스페인어, 스웨덴어, 노르웨이어가 지원되며, 지속적으로 최적화되고 있습니다.
주요 기능¶
함수 |
설명 |
---|---|
페이지 방향 |
PARSE_DOCUMENT는 자동으로 페이지 방향을 감지합니다. |
문자 |
PARSE Document는 다음 문자를 감지합니다.
|
언어 |
PARSE_DOCUMENT는 영어에 최적화되어 있습니다. 미리 보기에서는 프랑스어, 포르투갈어, 이탈리아어, 독일어, 스페인어, 스웨덴어, 노르웨이어도 지원됩니다. |
리전 가용성¶
이 기능에 대한 지원은 다음 Snowflake 리전의 계정에서 사용할 수 있습니다.
AWS |
Azure |
---|---|
US 서부 2(오리건) |
동부 US 2(버지니아) |
US 동부(오하이오) |
서부 유럽(네덜란드) |
US 동부 1(북부 버지니아) |
|
유럽(아일랜드) |
|
유럽 중부 1(프랑크푸르트) |
액세스 제어 요구 사항¶
PARSE_DOCUMENT 함수를 사용하려면 ACCOUNTADMIN 역할을 가진 사용자가 함수를 호출할 사용자에게 SNOWFLAKE.CORTEX_USER 데이터베이스 역할을 부여해야 합니다. 자세한 내용은 필수 권한 항목을 참조하십시오.
비용 고려 사항¶
Cortex PARSE_DOCUMENT 함수로 인해 이 미리 보기 동안 문서 처리를 위한 컴퓨팅 비용이 발생하지 않습니다. 추후 문서 처리에 따라 추가로 청구될 수 있습니다.
미리 보기 중에는 컴퓨팅 비용이 없지만 함수를 호출하는 쿼리를 실행할 웨어하우스를 선택해야 합니다. 더 큰 웨어하우스는 성능을 향상시키지 못하므로, Snowflake는 더 작은 웨어하우스(MEDIUM보다 크지 않음)로 Cortex PARSE_DOCUMENT 함수를 호출하는 쿼리를 실행할 것을 권장합니다.
오류 조건¶
Snowflake Cortex PARSE_DOCUMENT는 다음과 같은 오류 메시지를 표시할 수 있습니다.
메시지 |
설명 |
---|---|
제공된 파일의 형식이 필요한 형식이 아닙니다. 파일은 PDF여야 합니다. |
문서가 유효한 PDF가 아닌 경우 반환됩니다. |
100페이지의 최대 한도를 초과했습니다. |
PDF가 100페이지를 초과하는 경우 반환됩니다. |
최대 파일 크기인 104857600바이트를 초과했습니다. |
문서가 100MB를 초과하는 경우 반환됩니다. |
제공된 파일을 찾을 수 없거나 액세스할 수 없습니다. |
파일이 존재하지 않습니다. |
내부 오류. |
시스템 오류가 발생했습니다. 잠시 기다린 후 다시 시도해 보십시오. |
PARSE_DOCUMENT를 RAG 파이프라인에 통합하기¶
Retrieval-Augmented Generation(RAG)은 기술 자료에서 데이터를 검색하여 LLM의 생성된 응답을 향상하는 기법입니다. 다양한 문서에서 추출되는 내용의 품질과 컨텍스트는 문서 검색 시스템에서 검색 성능의 기본입니다. PARSE_DOCUMENT LAYOUT 모드에서는 문서의 구조적 통합성을 유지하는 고급 내용 추출을 쉽게 구현하여 텍스트를 간결하고 독립된 텍스트 단위로 쉽게 분할할 수 있습니다. 이를 통해 임의의 문자 분할을 활용하지 않고 의미 체계 청크를 구현할 수 있을 뿐만 아니라 타겟팅된 Q&A 및 요약 기능을 실행할 수 있습니다.
법적 고지¶
입력 및 출력의 데이터 분류는 다음 테이블과 같습니다.
입력 데이터 분류 |
출력 데이터 분류 |
지정 |
---|---|---|
Usage Data |
Customer Data |
Preview AI Features [1] |
자세한 내용은 Snowflake AI 및 ML 섹션을 참조하십시오.