PerformSnowflakeCortexOCR 2025.5.31.15¶
번들¶
com.snowflake.openflow.runtime | runtime-snowflake-processors-nar
설명¶
Snowflake Cortex ML 함수를 사용하여 PDF 문서에서 광학 문자 인식(OCR)을 수행합니다. 문서는 서버 측 암호화가 활성화된 Snowflake 내부 스테이지에서 스테이징해야 합니다. 프로세서는 PDFs 에서 텍스트 내용을 추출하고 그 결과를 FlowFile 내용 또는 특성으로 출력할 수 있습니다.
입력 요구 사항¶
REQUIRED
민감한 동적 속성 지원¶
false
속성¶
속성 |
설명 |
---|---|
데이터베이스 |
스테이지가 포함된 Snowflake 데이터베이스입니다 |
파일 이름 |
OCR 을 수행할 파일의 파일 이름은 OCR 을 수행하기 전에 스테이지에 업로드해야 합니다. FlowFile 특성은 식 언어를 통해 참조할 수 있습니다. |
최대 특성 크기 |
특성에 기록할 수 있는 OCR 결과의 최대 크기입니다. OCR 결과가 이 값을 초과하면 FlowFile 은 실패로 라우팅됩니다. |
OCR 모드 |
문서 텍스트와 구조를 추출하는 방법을 지정합니다. ‘OCR’ 모드에서는 형식과 테이블 구조를 무시하고 원시 텍스트 내용만 추출됩니다. ‘LAYOUT’ 모드에서는 출력에 테이블 구조가 마크다운으로 유지됩니다. |
Output Strategy |
응답 출력 대상을 결정합니다 |
결과 특성 |
OCR 응답을 작성할 특성의 이름입니다. |
스키마 |
스테이지를 포함하는 Snowflake 스키마는 다음과 같습니다 |
Snowflake 연결 서비스 |
Snowflake에 액세스하기 위한 데이터베이스 연결 서비스 |
스테이지 |
PDFs 이 임시로 저장되는 Snowflake 스테이지입니다. 스테이지에 서버 측 암호화가 활성화되어 있어야 합니다. FlowFile 특성은 표현식 언어를 통해 참조할 수 있습니다 |
관계¶
이름 |
설명 |
---|---|
비어 있음 |
OCR 결과가 비어있는 FlowFiles |
실패 |
처리할 수 없는 FlowFiles 은 이 관계로 라우팅됩니다 |
성공 |
성공적으로 처리된(OCR 결과가 비어 있지 않음) FlowFiles 은 이 관계로 라우팅됩니다 |
Writes 특성¶
이름 |
설명 |
---|---|
mime.type |
출력 내용의 MIME 유형(출력 전략이 FLOW_FILE 인 경우 text/plain) |
Snowflake.error.information |
Snowflake Cortex OCR 작업이 오류를 반환하는 경우 오류 정보를 포함합니다 |