PerformSnowflakeCortexOCR 2025.5.31.15¶
バンドル¶
com.snowflake.openflow.runtime | runtime-snowflake-processors-nar
説明¶
Snowflake Cortex ML 関数を使用して、 PDF ドキュメントで光学式文字認識 (OCR) を実行します。ドキュメントは、サーバー側の暗号化が有効なSnowflake内部ステージにステージングする必要があります。プロセッサーは PDFs からテキストコンテンツを抽出し、その結果を FlowFile コンテンツとして、または属性として出力することができます。
入力要件¶
REQUIRED
機密動的プロパティをサポート¶
false
プロパティ¶
プロパティ |
説明 |
---|---|
データベース |
ステージを含むSnowflakeデータベース |
ファイル名 |
OCR を実行するファイルのファイル名。 OCR を実行する前に、ステージングされたファイルをアップロードする必要があります。FlowFile 属性は式言語でリファレンスできます。 |
最大属性サイズ |
属性に書き込める結果の OCR の最大サイズ。OCR の結果がこれを超えると、 FlowFile は失敗にルーティングされます。 |
OCR モード |
文書のテキストと構造をどのように抽出するかを指定します。「OCR」モードでは、未加工のテキスト内容のみが抽出され、形式や表構造は無視されます。「LAYOUT」モードでは、出力はテーブル構造をマークダウンとして保持します。 |
出力ストラテジー |
レスポンスの出力先を決定します。 |
結果属性 |
OCR レスポンスを書き込む属性名。 |
スキーマ |
ステージを含むSnowflakeスキーマ。 |
Snowflake 接続 サービス |
Snowflakeアクセス用データベース接続サービス |
ステージ |
PDFs が一時的に保管されるSnowflakeステージ。ステージはサーバー側の暗号化が有効になっている必要があります。FlowFile 属性は式言語でリファレンスできます。 |
リレーションシップ¶
名前 |
説明 |
---|---|
empty |
FlowFiles OCR の結果が空の場合 |
failure |
処理できずこのリレーションシップにルーティングされる FlowFiles |
success |
FlowFiles 処理に成功した (OCR の結果が空でない) 場合は、このリレーションにルーティングされます。 |
属性の書き込み¶
名前 |
説明 |
---|---|
mime.type |
出力内容の MIME タイプ (出力戦略が FLOW_FILE の場合はtext/plain) |
snowflake.error.information |
Snowflake Cortex OCR 操作がエラーを返した場合のエラー情報を含みます。 |