PerformSnowflakeCortexOCR 2025.5.31.15¶
Bundle¶
com.snowflake.openflow.runtime | runtime-snowflake-processors-nar
Description¶
Effectue la reconnaissance optique des caractères (OCR) sur les documents PDF en utilisant les fonctions ML du Snowflake Cortex. Les documents doivent être mis en zone de préparation interne Snowflake avec le chiffrement côté serveur activé. Le processeur extrait le contenu texte de PDFs et peut produire les résultats soit comme contenu FlowFile, soit comme attribut.
Exigences en matière d’entrées¶
REQUIRED
Prend en charge les propriétés dynamiques sensibles¶
false
Propriétés¶
Propriété |
Description |
---|---|
Base de données |
La base de données Snowflake contenant la préparation |
Filename |
Le nom de fichier du fichier sur lequel effectuer OCR ; il doit être chargé dans le stage avant d’effectuer OCR. Attributs FlowFile peuvent être référencés via le Expression Language. |
Max Attribute Size |
La taille maximale des résultats OCR qui peuvent être écrits dans un attribut. Si les résultats OCR dépassent cette taille, le FlowFile sera routé vers failure. |
Mode OCR |
Spécifie comment le texte et la structure du document doivent être extraits. En mode “OCR”, seul le contenu brut du texte est extrait, sans tenir compte du formatage et des structures des tables. En mode “LAYOUT”, la sortie préserve les structures des tables en tant que markdown. |
Output Strategy |
Détermine la destination de la sortie de la réponse |
Results Attribute |
Le nom de l’attribut sur lequel écrire la réponse OCR. |
Schéma |
Le schéma de Snowflake contenant la zone de préparation |
Snowflake Connection Service |
Le service de connexion à la base de données pour l’accès à Snowflake |
Zone de préparation |
La zone Snowflake où PDFs seront temporairement mis en préparation. Le chiffrement côté serveur doit être activé sur la zone de préparation. Attributs FlowFile peuvent être référencés via l’Expression Language. |
Relations¶
Nom |
Description |
---|---|
empty |
FlowFiles pour lesquels les résultats de OCR sont vides |
failure |
Les FlowFiles qui ne peuvent être traités sont routés vers cette relation |
success |
FlowFiles qui sont traitées avec succès (avec des résultats OCR non vides) sont routées vers cette relation |
Écrit les attributs¶
Nom |
Description |
---|---|
mime.type |
Le type MIME du contenu de la sortie (text/plain lorsque la stratégie de sortie est FLOW_FILE) |
snowflake.error.information |
Contient des informations d’erreur si l’opération de Snowflake Cortex OCR renvoie une erreur |