PerformSnowflakeCortexOCR 2025.5.31.15

Bundle

com.snowflake.openflow.runtime | runtime-snowflake-processors-nar

Beschreibung

Führt eine optische Zeichenerkennung (OCR) auf PDF-Dokumenten durch und verwendet dabei die Funktionen von Snowflake Cortex ML. Die Dokumente müssen in einem Snowflake-internen Stagingbereich mit aktivierter serverseitiger Verschlüsselung bereitgestellt werden. Der Prozessor extrahiert Textinhalte aus PDFs und kann die Ergebnisse entweder als FlowFile-Inhalt oder als Attribut ausgeben.

Tags

ai, cortex, document, ml, ocr, openflow, pdf, snowflake

Eingabeanforderung

REQUIRED

Unterstützt sensible dynamische Eigenschaften

false

Eigenschaften

Eigenschaft

Beschreibung

Datenbank

Die Snowflake-Datenbank, die den Stagingbereich enthält

Filename

Der Dateiname der Datei, auf die die OCR angewendet werden soll. Diese Datei muss vor der Ausführung von OCR in die Arbeitsumgebung hochgeladen werden. FlowFile-Attribute können über Expression Language referenziert werden.

Max Attribute Size

Die maximale Größe der OCR-Ergebnisse, die in ein Attribut geschrieben werden können. Wenn die OCR-Ergebnisse diesen Wert überschreiten, wird das FlowFile als Fehler weitergeleitet.

OCR Mode

Legt fest, wie Text und Struktur des Dokuments extrahiert werden sollen. Im Modus „OCR“ wird nur der rohe Textinhalt extrahiert, wobei Formatierungen und Tabellenstrukturen ignoriert werden. Im „LAYOUT“-Modus behält die Ausgabe die Tabellenstrukturen als Markdown bei.

Output Strategy

Bestimmt das Ziel der Antwortausgabe

Results Attribute

Der Name des Attributs, in das die OCR-Antwort geschrieben werden soll.

Schema

Das Snowflake-Schema, das den Stagingbereich enthält

Snowflake Connection Service

Datenbankverbindungsdienst für den Zugriff auf Snowflake

Stagingbereich

Der Stagingbereich von Snowflake, in dem PDFs vorübergehend gespeichert werden. Für den Stagingbereich muss die serverseitige Verschlüsselung aktiviert sein. FlowFile-Attribute können über Expression Language referenziert werden.

Beziehungen

Name

Beschreibung

empty

FlowFiles für die OCR-Ergebnisse leer sind

failure

FlowFiles, die nicht verarbeitet werden können, werden an diese Beziehung weitergeleitet.

success

FlowFiles, die erfolgreich verarbeitet wurden (mit nicht leeren OCR-Ergebnissen), werden an diese Beziehung weitergeleitet.

Schreibt Attribute

Name

Beschreibung

mime.type

Der MIME Typ des Ausgabeinhalts (text/plain, wenn die Ausgabestrategie FLOW_FILE ist)

snowflake.error.information

Enthält Fehlerinformationen, wenn die Snowflake Cortex OCR-Operation einen Fehler zurückgibt.

Siehe auch: