ChunkRecordText 2025.10.9.21¶

Bundle¶

com.snowflake.openflow.runtime | runtime-chunking-nar

Beschreibung¶

Teilt Text mit Optionen für die rekursive Aufteilung anhand von Trennzeichen und maximaler Zeichenlänge in Blöcke auf. Es wird erwartet, dass der Eingabetext in einem datensatzorientierten FlowFile vorliegt, das dem konfigurierten Format des Record Reader entspricht.

Tags¶

chunk, openflow, text

Eingabeanforderung¶

REQUIRED

Unterstützt sensible dynamische Eigenschaften¶

false

Eigenschaften¶


Eigenschaft	Beschreibung
Chunk Count Field Name	Der Name des Feldes im Datensatz, in das die Gesamtzahl der aus dem ursprünglichen Datensatz erstellten Blöcke geschrieben werden soll.
Chunk Delimiters	Gibt eine durch Kommas getrennte Liste von Zeichenfolgen an. Die Meta-Zeichen n, r und werden automatisch zurückkonvertiert. Trennzeichen werden rekursiv angewendet, um den Text in Blöcke zu unterteilen.
Chunk Index Field Name	Der Name des Feldes im Datensatz, in das der Blockindex geschrieben werden soll.
Chunk Overlap	Die maximale Anzahl der Zeichen, die aus den vorangehenden und nachfolgenden Blöcken einbezogen werden.
Chunking Strategy	Strategie zur Aufteilung von Text in Blöcke. Die Option „Recursive Delimiters“ teilt den Text nach dem Algorithmus der rekursiven Aufteilung nach Zeichen in Blöcke auf. Bei diesem Algorithmus wird der Eingabetext durch das erste Trennzeichen aufgespalten und wieder zu Blöcken zusammengefügt, die die „Max Chunk Length“ nicht überschreiten. Alle Teilungen, die die „Max Chunk Length“ überschreiten, werden dann rekursiv anhand des nächsten Trennzeichens geteilt. Die Option „Max Chunk Length“ teilt den Text in Blöcke auf, die die Größe von „Max Chunk Length“ haben.
Sprache	Sprache, die für das Parsen von Sätzen verwendet wird.
Max Chunk Length	Maximale Anzahl von Zeichen, die in den Ausgabeblock aufgenommen werden sollen. Wenn Sie diesen Wert zu hoch einstellen, kann es zu einem Speicherfehler kommen.
Record Reader	Der Record Reader, der zum Lesen des FlowFile verwendet wird.
Record Writer	Der Record Writer, der zum Schreiben der Ergebnisse verwendet wird.
Sentence Similarity Threshold	Schwellenwert zur Bestimmung, ob zwei Sätze ähnlich genug sind, um denselben Block zu belegen. Ein Wert von 1,0 bedeutet, dass die Sätze identisch sind. Ein Wert von 0,0 bedeutet, dass die Sätze völlig unähnlich sind.
Text Record Path	Der Datensatzpfad zu einem Textfeld im Datensatz.
Trim Whitespace	Leerzeichen rund um den ausgegebenen Textblock abschneiden.

Beziehungen¶


Name	Beschreibung
original	Das Eingabe-FlowFile wird an die Beziehung „original“ weitergeleitet.
success	Textblöcke werden an die Beziehung „success“ weitergeleitet.

Schreibt Attribute¶


Name	Beschreibung
chunk.strategy	Strategie zum Aufteilen von Text in Blöcke. Entweder „‘Max Chunk Length“, „Recursive Delimiters“, „Sentence“, „Semantic“.
chunk.semantic.threshold	Schwellenwert zur Bestimmung, ob zwei Sätze ähnlich genug sind, um denselben Block zu belegen. Dieses Attribut wird nur hinzugefügt, wenn die Chunking-Strategie „Semantic“ verwendet wird.
chunk.language	Sprache, die zum Analysieren von Sätzen verwendet wird. Dieses Attribut wird nur hinzugefügt, wenn die Chunking-Strategie „Sentence“ oder „Semantic“ verwendet wird.
chunk.delimiters	Durch Kommas getrennte Liste von Trennzeichen, die zum Aufteilen von Text in Blöcke verwendet werden. Dieses Attribut wird nur hinzugefügt, wenn die Chunking-Strategie „Recursive Delimiters“ verwendet wird.
chunk.max.chars	Maximale Anzahl von Zeichen, die in jedem Block enthalten sein dürfen.