PerformSnowflakeCortexOCR 2025.5.31.15

번들

com.snowflake.openflow.runtime | runtime-snowflake-processors-nar

설명

Snowflake Cortex ML 함수를 사용하여 PDF 문서에서 광학 문자 인식(OCR)을 수행합니다. 문서는 서버 측 암호화가 활성화된 Snowflake 내부 스테이지에서 스테이징해야 합니다. 프로세서는 PDFs 에서 텍스트 내용을 추출하고 그 결과를 FlowFile 내용 또는 특성으로 출력할 수 있습니다.

태그

ai, cortex, document, ml, ocr, openflow, pdf, snowflake

입력 요구 사항

REQUIRED

민감한 동적 속성 지원

false

속성

속성

설명

데이터베이스

스테이지가 포함된 Snowflake 데이터베이스입니다

파일 이름

OCR 을 수행할 파일의 파일 이름은 OCR 을 수행하기 전에 스테이지에 업로드해야 합니다. FlowFile 특성은 식 언어를 통해 참조할 수 있습니다.

최대 특성 크기

특성에 기록할 수 있는 OCR 결과의 최대 크기입니다. OCR 결과가 이 값을 초과하면 FlowFile 은 실패로 라우팅됩니다.

OCR 모드

문서 텍스트와 구조를 추출하는 방법을 지정합니다. ‘OCR’ 모드에서는 형식과 테이블 구조를 무시하고 원시 텍스트 내용만 추출됩니다. ‘LAYOUT’ 모드에서는 출력에 테이블 구조가 마크다운으로 유지됩니다.

Output Strategy

응답 출력 대상을 결정합니다

결과 특성

OCR 응답을 작성할 특성의 이름입니다.

스키마

스테이지를 포함하는 Snowflake 스키마는 다음과 같습니다

Snowflake 연결 서비스

Snowflake에 액세스하기 위한 데이터베이스 연결 서비스

스테이지

PDFs 이 임시로 저장되는 Snowflake 스테이지입니다. 스테이지에 서버 측 암호화가 활성화되어 있어야 합니다. FlowFile 특성은 표현식 언어를 통해 참조할 수 있습니다

관계

이름

설명

비어 있음

OCR 결과가 비어있는 FlowFiles

실패

처리할 수 없는 FlowFiles 은 이 관계로 라우팅됩니다

성공

성공적으로 처리된(OCR 결과가 비어 있지 않음) FlowFiles 은 이 관계로 라우팅됩니다

Writes 특성

이름

설명

mime.type

출력 내용의 MIME 유형(출력 전략이 FLOW_FILE 인 경우 text/plain)

Snowflake.error.information

Snowflake Cortex OCR 작업이 오류를 반환하는 경우 오류 정보를 포함합니다

참고 항목