Cortex Parse Document 개요

PARSE_DOCUMENT 함수는 내부 또는 외부 스테이지에 저장된 문서에서 텍스트나 레이아웃을 추출하는 기능을 제공하는 Cortex AI 작업 전용 함수 입니다. PARSE_DOCUMENT는 강력한 광학 문자 인식(OCR) 기능과 머신 러닝 모델을 결합하여 텍스트 콘텐츠, 테이블에 저장된 정보, PDF 문서의 구조 요소를 파악합니다. PARSE_DOCUMENT 함수를 사용하여 텍스트와 문서 레이아웃을 추출하여 대용량 비즈니스 문서 아카이브에서 정보 검색 시스템을 구축하고, 추출된 정보를 구조화된 Snowflake 테이블에 로드하여 애플리케이션에서 사용할 수 있습니다.

Parse Document 작동 방식

PARSE_DOCUMENT 함수는 OCR(기본값) 및 PDF 문서 처리를 위한 LAYOUT 모드를 제공합니다.

  • PARSE_DOCUMENT OCR(기본값) 모드는 텍스트가 많은 문서에서 텍스트를 추출하는 데 최적화되어 있습니다. 의미 체계가 명확하지 않은 문서에서 빠르고 쉽고 효과적으로 텍스트를 추출할 때 권장되는 옵션입니다.

  • PARSE_DOCUMENT LAYOUT(선택 사항) 모드는 테이블과 같은 텍스트와 레이아웃 요소를 추출하는 데 최적화되었습니다. 검색 정보 시스템을 최적화하기 위해 문서 기술 자료의 컨텍스트를 개선하고 대규모 언어 모델(LLM)을 추론하는 데 권장되는 옵션입니다. 예를 들어, LAYOUT 요소를 사용하여 텍스트 섹션을 분리하여 보다 표적화된 엔터티 추출 작업을 수행할 수 있습니다.

Parse Document 사용하기

Cortex PARSE_DOCUMENT 함수는 SQL 함수입니다. Snowflake에서 전적으로 호스팅 및 관리되므로 사용할 때 별도의 설정이 필요하지 않습니다. 즉, PARSE_DOCUMENT 함수를 PDF 문서가 저장된 스테이지로 지정하여 텍스트 또는 레이아웃 데이터를 추출할 수 있습니다. 다음 예제에서는 parse_document 데이터베이스와 demo 스키마의 documents 스테이지에 있는 document_1.pdf 파일에서 텍스트와 레이아웃 정보를 추출합니다.

참고

PARSE_DOCUMENT 는 현재 사용자 지정 네트워크 정책 과 호환되지 않습니다.

SELECT
  SNOWFLAKE.CORTEX.PARSE_DOCUMENT(
    @parse_document.demo.documents,
    'document_1.pdf',
    {'mode': 'LAYOUT'}
  ) AS layout;
Copy

PARSE_DOCUMENT는 내부 Snowflake 스테이지 또는 외부 스테이지에 저장된 문서의 처리를 지원합니다. 스테이지를 생성할 때 서버 측 암호화 는 필수입니다. 그렇지 않으면, PARSE_DOCUMENT 는 제공된 파일이 예상 형식이 아니거나 클라이언트 측에서 암호화되었다는 오류를 반환합니다.

CREATE STAGE input_stage
    DIRECTORY = ( ENABLE = true )
    ENCRYPTION = ( TYPE = 'SNOWFLAKE_SSE' );
Copy

입력 요구 사항

Cortex PARSE_DOCUMENT 함수는 현재 하드카피로 스캔한 문서가 아닌 디지털 생성 문서에 최적화되어 있습니다. 다음 테이블은 입력 설명서에 대한 제한 사항과 요구 사항을 나열합니다.

최대 파일 크기

100 MB

문서당 최대 페이지 수

100페이지

허용 파일 유형

PDF

스테이지 암호화

서버 측 암호화

참고

PARSE_DOCUMENT는 현재 중국어, 일본어, 태국어 등 라틴 문자가 아닌 문자를 사용하는 언어에는 최적화되어 있지 않습니다. 미리 보기에서는 프랑스어, 포르투갈어, 이탈리아어, 독일어, 스페인어, 스웨덴어, 노르웨이어가 지원되며, 지속적으로 최적화되고 있습니다.

주요 기능

함수

설명

페이지 방향

PARSE_DOCUMENT는 자동으로 페이지 방향을 감지합니다.

문자

PARSE Document는 다음 문자를 감지합니다.

  • a-z

  • A-Z

  • 0-9

  • À Á Â Ä Å Ç È É Ê Ë Ì Í Î Ï Ò Ó Ô Õ Ö Ú Ü Ý ß à á â ã ä å æ ç è é ê ë ì í î ï ñ ò ó ô õ ö ø ù ú û ü ý ą Ć ć Č č Đ đ ę ı Ł ł ō Œ œ Š š Ÿ Ž ž ʒ β δ ε з Ṡ

  • # $ % & ‘ ( ) * + , - . / : ; < = > ? @ [ ] _ ` { } ¡ £ § ª « ° ¹ ² ³ ´ µ · º » ¿ ‘ € ™

언어

PARSE_DOCUMENT는 영어에 최적화되어 있습니다. 미리 보기에서는 프랑스어, 포르투갈어, 이탈리아어, 독일어, 스페인어, 스웨덴어, 노르웨이어도 지원됩니다.

리전 가용성

이 기능에 대한 지원은 다음 Snowflake 리전의 계정에서 사용할 수 있습니다.

AWS

Azure

US 서부 2(오리건)

동부 US 2(버지니아)

US 동부(오하이오)

서부 유럽(네덜란드)

US 동부 1(북부 버지니아)

유럽(아일랜드)

유럽 중부 1(프랑크푸르트)

액세스 제어 요구 사항

PARSE_DOCUMENT 함수를 사용하려면 ACCOUNTADMIN 역할을 가진 사용자가 함수를 호출할 사용자에게 SNOWFLAKE.CORTEX_USER 데이터베이스 역할을 부여해야 합니다. 자세한 내용은 필수 권한 항목을 참조하십시오.

비용 고려 사항

Cortex PARSE_DOCUMENT 함수로 인해 이 미리 보기 동안 문서 처리를 위한 컴퓨팅 비용이 발생하지 않습니다. 추후 문서 처리에 따라 추가로 청구될 수 있습니다.

미리 보기 중에는 컴퓨팅 비용이 없지만 함수를 호출하는 쿼리를 실행할 웨어하우스를 선택해야 합니다. 더 큰 웨어하우스는 성능을 향상시키지 못하므로, Snowflake는 더 작은 웨어하우스(MEDIUM보다 크지 않음)로 Cortex PARSE_DOCUMENT 함수를 호출하는 쿼리를 실행할 것을 권장합니다.

오류 조건

Snowflake Cortex PARSE_DOCUMENT는 다음과 같은 오류 메시지를 표시할 수 있습니다.

메시지

설명

제공된 파일의 형식이 필요한 형식이 아닙니다. 파일은 PDF여야 합니다.

문서가 유효한 PDF가 아닌 경우 반환됩니다.

100페이지의 최대 한도를 초과했습니다.

PDF가 100페이지를 초과하는 경우 반환됩니다.

최대 파일 크기인 104857600바이트를 초과했습니다.

문서가 100MB를 초과하는 경우 반환됩니다.

제공된 파일을 찾을 수 없거나 액세스할 수 없습니다.

파일이 존재하지 않습니다.

내부 오류.

시스템 오류가 발생했습니다. 잠시 기다린 후 다시 시도해 보십시오.

PARSE_DOCUMENT를 RAG 파이프라인에 통합하기

Retrieval-Augmented Generation(RAG)은 기술 자료에서 데이터를 검색하여 LLM의 생성된 응답을 향상하는 기법입니다. 다양한 문서에서 추출되는 내용의 품질과 컨텍스트는 문서 검색 시스템에서 검색 성능의 기본입니다. PARSE_DOCUMENT LAYOUT 모드에서는 문서의 구조적 통합성을 유지하는 고급 내용 추출을 쉽게 구현하여 텍스트를 간결하고 독립된 텍스트 단위로 쉽게 분할할 수 있습니다. 이를 통해 임의의 문자 분할을 활용하지 않고 의미 체계 청크를 구현할 수 있을 뿐만 아니라 타겟팅된 Q&A 및 요약 기능을 실행할 수 있습니다.