- 카테고리:
문자열 및 이진 함수 (AI 함수)
AI_PARSE_DOCUMENT¶
참고
AI_PARSE_DOCUMENT 은 PARSE_DOCUMENT(SNOWFLAKE.CORTEX) 의 업데이트된 버전입니다. 최신 기능의 경우 AI_PARSE_DOCUMENT 를 사용하십시오.
Snowflake 스테이지의 문서에서 추출된 내용을 JSON 형식의 문자열로 반환합니다. 이 함수는 다음 두 가지 유형인 OCR(광학 문자 인식) 및 레이아웃을 지원합니다. 자세한 내용은 AISQL AI_PARSE_DOCUMENT 섹션을 참조하십시오.
구문¶
AI_PARSE_DOCUMENT( '@<stage>', '<path>', [ <options> ] )
인자¶
필수:
stage
구문 분석할 문서가 포함된 Snowflake 스테이지의 이름입니다. 이는 서버 측 암호화를 사용하고 함수를 실행하는 사용자가 액세스할 수 있는 내부 또는 외부 스테이지여야 합니다.
path
Snowflake 스테이지의 문서에 대한 상대 경로입니다.
선택 사항:
options
문서 구문 분석 옵션이 포함된 OBJECT 값입니다. 지원되는 키는 아래에 나와 있습니다. 모두 선택 사항입니다.
'mode'
: 구문 분석 모드를 지정합니다. 지원되는 모드는 다음과 같습니다.'OCR'
: 함수는 텍스트만 추출합니다. 이것이 기본값입니다.'LAYOUT'
: 이 함수는 테이블과 같은 구조적 내용을 포함하여 텍스트뿐 아니라 레이아웃도 추출합니다.
'page_split'
: TRUE로 설정된 경우 이 함수는 문서를 페이지로 분할하고 각 페이지를 개별적으로 처리합니다. 이 기능은 PDF, PowerPoint(.pptx
) 및 Word(.docx
) 문서만 지원합니다. 다른 형식의 문서는 오류를 반환합니다. 기본값은 FALSE 입니다.팁
AI_PARSE_DOCUMENT의 토큰 제한을 초과하는 긴 문서를 처리하려면 이 옵션을 TRUE로 설정하세요.
반환¶
추출된 데이터와 관련 메타데이터를 포함하는 JSON 오브젝트(문자열)입니다. options
인자는 반환된 오브젝트의 구조를 결정합니다.
팁
SQL에서 출력을 사용하려면 PARSE_JSON 함수를 사용하여 OBJECT 값으로 변환합니다.
'page_split'
옵션이 설정된 경우 출력의 구조는 다음과 같습니다.
"pages"
: 각각 문서에서 추출한 텍스트를 포함하는 JSON 오브젝트의 배열입니다. 문서에 한 페이지만 있는 경우 출력에는 여전히"pages"
배열(단일 오브젝트 포함)이 포함됩니다. 각 페이지에는 다음 필드가 있습니다.
"content"
: 일반 텍스트(OCR 모드) 또는 마크다운 형식의 텍스트(LAYOUT 모드)입니다.
"index"
: 파일의 페이지 인덱스로, 0부터 시작합니다. 문서에 지정된 페이지 번호와 형식은 무시됩니다.
"errorInformation"
: 문서를 구문 분석할 수 없는 경우 오류 정보를 포함합니다.
"metadata"
: 페이지 수와 같은 문서에 대한 메타데이터를 포함합니다.참고
"pages"
및"metadata"
필드는 구문 분석이 성공하는 경우 출력에 표시됩니다."errorInformation"
는 구문 분석이 실패하는 경우에만 존재합니다.
'page_split'
이 FALSE이거나 존재하지 않는 경우 출력의 구조는 다음과 같습니다.
"content"
: 일반 텍스트(OCR 모드) 또는 마크다운 형식의 텍스트(LAYOUT 모드)입니다.
"errorInformation"
: 문서를 구문 분석할 수 없는 경우 오류 정보를 포함합니다.
"metadata"
: 페이지 수와 같은 문서에 대한 메타데이터를 포함합니다.참고
"content"
및"metadata"
필드는 구문 분석이 성공하는 경우 출력에 표시됩니다."errorInformation"
는 구문 분석이 실패하는 경우에만 존재합니다.
예¶
예제에 대해서는 AI_PARSE_DOCUMENT 예제 를 참조하세요.
제한 사항¶
Snowflake Cortex 함수는 동적 테이블을 지원하지 않습니다.