PerformSnowflakeCortexOCR 2025.5.31.15¶
Bundle¶
com.snowflake.openflow.runtime | runtime-snowflake-processors-nar
Beschreibung¶
Führt eine optische Zeichenerkennung (OCR) auf PDF-Dokumenten durch und verwendet dabei die Funktionen von Snowflake Cortex ML. Die Dokumente müssen in einem Snowflake-internen Stagingbereich mit aktivierter serverseitiger Verschlüsselung bereitgestellt werden. Der Prozessor extrahiert Textinhalte aus PDFs und kann die Ergebnisse entweder als FlowFile-Inhalt oder als Attribut ausgeben.
Eingabeanforderung¶
REQUIRED
Unterstützt sensible dynamische Eigenschaften¶
false
Eigenschaften¶
Eigenschaft |
Beschreibung |
---|---|
Datenbank |
Die Snowflake-Datenbank, die den Stagingbereich enthält |
Filename |
Der Dateiname der Datei, auf die die OCR angewendet werden soll. Diese Datei muss vor der Ausführung von OCR in die Arbeitsumgebung hochgeladen werden. FlowFile-Attribute können über Expression Language referenziert werden. |
Max Attribute Size |
Die maximale Größe der OCR-Ergebnisse, die in ein Attribut geschrieben werden können. Wenn die OCR-Ergebnisse diesen Wert überschreiten, wird das FlowFile als Fehler weitergeleitet. |
OCR Mode |
Legt fest, wie Text und Struktur des Dokuments extrahiert werden sollen. Im Modus „OCR“ wird nur der rohe Textinhalt extrahiert, wobei Formatierungen und Tabellenstrukturen ignoriert werden. Im „LAYOUT“-Modus behält die Ausgabe die Tabellenstrukturen als Markdown bei. |
Output Strategy |
Bestimmt das Ziel der Antwortausgabe |
Results Attribute |
Der Name des Attributs, in das die OCR-Antwort geschrieben werden soll. |
Schema |
Das Snowflake-Schema, das den Stagingbereich enthält |
Snowflake Connection Service |
Datenbankverbindungsdienst für den Zugriff auf Snowflake |
Stagingbereich |
Der Stagingbereich von Snowflake, in dem PDFs vorübergehend gespeichert werden. Für den Stagingbereich muss die serverseitige Verschlüsselung aktiviert sein. FlowFile-Attribute können über Expression Language referenziert werden. |
Beziehungen¶
Name |
Beschreibung |
---|---|
empty |
FlowFiles für die OCR-Ergebnisse leer sind |
failure |
FlowFiles, die nicht verarbeitet werden können, werden an diese Beziehung weitergeleitet. |
success |
FlowFiles, die erfolgreich verarbeitet wurden (mit nicht leeren OCR-Ergebnissen), werden an diese Beziehung weitergeleitet. |
Schreibt Attribute¶
Name |
Beschreibung |
---|---|
mime.type |
Der MIME Typ des Ausgabeinhalts (text/plain, wenn die Ausgabestrategie FLOW_FILE ist) |
snowflake.error.information |
Enthält Fehlerinformationen, wenn die Snowflake Cortex OCR-Operation einen Fehler zurückgibt. |