ChunkRecordText 2025.5.31.15

Bundle

com.snowflake.openflow.runtime | runtime-chunking-nar

Beschreibung

Teilt Text mit Optionen für die rekursive Aufteilung anhand von Trennzeichen und maximaler Zeichenlänge in Blöcke auf. Es wird erwartet, dass der Eingabetext in einem datensatzorientierten FlowFile vorliegt, das dem konfigurierten Format des Record Reader entspricht.

Tags

chunk, openflow, text

Eingabeanforderung

REQUIRED

Unterstützt sensible dynamische Eigenschaften

false

Eigenschaften

Eigenschaft

Beschreibung

Chunk Count Field Name

Der Name des Feldes im Datensatz, in das die Gesamtzahl der aus dem ursprünglichen Datensatz erstellten Blöcke geschrieben werden soll.

Chunk Delimiters

Gibt eine durch Kommas getrennte Liste von Zeichenfolgen an. Die Meta-Zeichen n, r und t werden automatisch zurückkonvertiert. Trennzeichen werden rekursiv angewendet, um den Text in Blöcke zu unterteilen.

Chunk Index Field Name

Der Name des Feldes im Datensatz, in das der Blockindex geschrieben werden soll.

Chunk Overlap

Die maximale Anzahl der Zeichen, die aus den vorangehenden und nachfolgenden Blöcken einbezogen werden.

Chunking Strategy

Strategie zur Aufteilung von Text in Blöcke. Die Option „Recursive Delimiters“ teilt den Text nach dem Algorithmus der rekursiven Aufteilung nach Zeichen in Blöcke auf. Bei diesem Algorithmus wird der Eingabetext durch das erste Trennzeichen aufgespalten und wieder zu Blöcken zusammengefügt, die die „Max Chunk Length“ nicht überschreiten. Alle Teilungen, die die „Max Chunk Length“ überschreiten, werden dann rekursiv anhand des nächsten Trennzeichens geteilt. Die Option „Max Chunk Length“ teilt den Text in Blöcke auf, die die Größe von „Max Chunk Length“ haben.

Sprache

Sprache, die für das Parsen von Sätzen verwendet wird.

Max Chunk Length

Maximale Anzahl von Zeichen, die in den Ausgabeblock aufgenommen werden sollen. Wenn Sie diesen Wert zu hoch einstellen, kann es zu einem Speicherfehler kommen.

Record Reader

Der Record Reader, der zum Lesen des FlowFile verwendet wird.

Record Writer

Der Record Writer, der zum Schreiben der Ergebnisse verwendet wird.

Sentence Similarity Threshold

Schwellenwert zur Bestimmung, ob zwei Sätze ähnlich genug sind, um denselben Block zu belegen. Ein Wert von 1,0 bedeutet, dass die Sätze identisch sind. Ein Wert von 0,0 bedeutet, dass die Sätze völlig unähnlich sind.

Text Record Path

Der Datensatzpfad zu einem Textfeld im Datensatz.

Trim Whitespace

Leerzeichen rund um den ausgegebenen Textblock abschneiden.

Beziehungen

Name

Beschreibung

original

Das Eingabe-FlowFile wird an die Beziehung „original“ weitergeleitet.

success

Textblöcke werden an die Beziehung „success“ weitergeleitet.

Schreibt Attribute

Name

Beschreibung

chunk.strategy

Strategie zum Aufteilen von Text in Blöcke. Entweder „‘Max Chunk Length“, „Recursive Delimiters“, „Sentence“, „Semantic“.

chunk.semantic.threshold

Schwellenwert zur Bestimmung, ob zwei Sätze ähnlich genug sind, um denselben Block zu belegen. Dieses Attribut wird nur hinzugefügt, wenn die Chunking-Strategie „Semantic“ verwendet wird.

chunk.language

Sprache, die zum Analysieren von Sätzen verwendet wird. Dieses Attribut wird nur hinzugefügt, wenn die Chunking-Strategie „Sentence“ oder „Semantic“ verwendet wird.

chunk.delimiters

Durch Kommas getrennte Liste von Trennzeichen, die zum Aufteilen von Text in Blöcke verwendet werden. Dieses Attribut wird nur hinzugefügt, wenn die Chunking-Strategie „Recursive Delimiters“ verwendet wird.

chunk.max.chars

Maximale Anzahl von Zeichen, die in jedem Block enthalten sein dürfen.