PerformSnowflakeCortexOCR 2025.5.31.15

Bundle

com.snowflake.openflow.runtime | runtime-snowflake-processors-nar

Description

Effectue la reconnaissance optique des caractères (OCR) sur les documents PDF en utilisant les fonctions ML du Snowflake Cortex. Les documents doivent être mis en zone de préparation interne Snowflake avec le chiffrement côté serveur activé. Le processeur extrait le contenu texte de PDFs et peut produire les résultats soit comme contenu FlowFile, soit comme attribut.

Balises

ai, cortex, document, ml, ocr, openflow, pdf, snowflake

Exigences en matière d’entrées

REQUIRED

Prend en charge les propriétés dynamiques sensibles

false

Propriétés

Propriété

Description

Base de données

La base de données Snowflake contenant la préparation

Filename

Le nom de fichier du fichier sur lequel effectuer OCR ; il doit être chargé dans le stage avant d’effectuer OCR. Attributs FlowFile peuvent être référencés via le Expression Language.

Max Attribute Size

La taille maximale des résultats OCR qui peuvent être écrits dans un attribut. Si les résultats OCR dépassent cette taille, le FlowFile sera routé vers failure.

Mode OCR

Spécifie comment le texte et la structure du document doivent être extraits. En mode “OCR”, seul le contenu brut du texte est extrait, sans tenir compte du formatage et des structures des tables. En mode “LAYOUT”, la sortie préserve les structures des tables en tant que markdown.

Output Strategy

Détermine la destination de la sortie de la réponse

Results Attribute

Le nom de l’attribut sur lequel écrire la réponse OCR.

Schéma

Le schéma de Snowflake contenant la zone de préparation

Snowflake Connection Service

Le service de connexion à la base de données pour l’accès à Snowflake

Zone de préparation

La zone Snowflake où PDFs seront temporairement mis en préparation. Le chiffrement côté serveur doit être activé sur la zone de préparation. Attributs FlowFile peuvent être référencés via l’Expression Language.

Relations

Nom

Description

empty

FlowFiles pour lesquels les résultats de OCR sont vides

failure

Les FlowFiles qui ne peuvent être traités sont routés vers cette relation

success

FlowFiles qui sont traitées avec succès (avec des résultats OCR non vides) sont routées vers cette relation

Écrit les attributs

Nom

Description

mime.type

Le type MIME du contenu de la sortie (text/plain lorsque la stratégie de sortie est FLOW_FILE)

snowflake.error.information

Contient des informations d’erreur si l’opération de Snowflake Cortex OCR renvoie une erreur

Voir aussi :