PerformSnowflakeCortexOCR 2025.5.31.15

バンドル

com.snowflake.openflow.runtime | runtime-snowflake-processors-nar

説明

Snowflake Cortex ML 関数を使用して、 PDF ドキュメントで光学式文字認識 (OCR) を実行します。ドキュメントは、サーバー側の暗号化が有効なSnowflake内部ステージにステージングする必要があります。プロセッサーは PDFs からテキストコンテンツを抽出し、その結果を FlowFile コンテンツとして、または属性として出力することができます。

タグ

ai, cortex, document, ml, ocr, openflow, pdf, snowflake

入力要件

REQUIRED

機密動的プロパティをサポート

false

プロパティ

プロパティ

説明

データベース

ステージを含むSnowflakeデータベース

ファイル名

OCR を実行するファイルのファイル名。 OCR を実行する前に、ステージングされたファイルをアップロードする必要があります。FlowFile 属性は式言語でリファレンスできます。

最大属性サイズ

属性に書き込める結果の OCR の最大サイズ。OCR の結果がこれを超えると、 FlowFile は失敗にルーティングされます。

OCR モード

文書のテキストと構造をどのように抽出するかを指定します。「OCR」モードでは、未加工のテキスト内容のみが抽出され、形式や表構造は無視されます。「LAYOUT」モードでは、出力はテーブル構造をマークダウンとして保持します。

出力ストラテジー

レスポンスの出力先を決定します。

結果属性

OCR レスポンスを書き込む属性名。

スキーマ

ステージを含むSnowflakeスキーマ。

Snowflake 接続 サービス

Snowflakeアクセス用データベース接続サービス

ステージ

PDFs が一時的に保管されるSnowflakeステージ。ステージはサーバー側の暗号化が有効になっている必要があります。FlowFile 属性は式言語でリファレンスできます。

リレーションシップ

名前

説明

empty

FlowFiles OCR の結果が空の場合

failure

処理できずこのリレーションシップにルーティングされる FlowFiles

success

FlowFiles 処理に成功した (OCR の結果が空でない) 場合は、このリレーションにルーティングされます。

属性の書き込み

名前

説明

mime.type

出力内容の MIME タイプ (出力戦略が FLOW_FILE の場合はtext/plain)

snowflake.error.information

Snowflake Cortex OCR 操作がエラーを返した場合のエラー情報を含みます。

こちらもご覧ください