ChunkRecordText 2025.5.31.15¶
Bundle¶
com.snowflake.openflow.runtime | runtime-chunking-nar
Beschreibung¶
Teilt Text mit Optionen für die rekursive Aufteilung anhand von Trennzeichen und maximaler Zeichenlänge in Blöcke auf. Es wird erwartet, dass der Eingabetext in einem datensatzorientierten FlowFile vorliegt, das dem konfigurierten Format des Record Reader entspricht.
Eingabeanforderung¶
REQUIRED
Unterstützt sensible dynamische Eigenschaften¶
false
Eigenschaften¶
Eigenschaft |
Beschreibung |
---|---|
Chunk Count Field Name |
Der Name des Feldes im Datensatz, in das die Gesamtzahl der aus dem ursprünglichen Datensatz erstellten Blöcke geschrieben werden soll. |
Chunk Delimiters |
Gibt eine durch Kommas getrennte Liste von Zeichenfolgen an. Die Meta-Zeichen n, r und t werden automatisch zurückkonvertiert. Trennzeichen werden rekursiv angewendet, um den Text in Blöcke zu unterteilen. |
Chunk Index Field Name |
Der Name des Feldes im Datensatz, in das der Blockindex geschrieben werden soll. |
Chunk Overlap |
Die maximale Anzahl der Zeichen, die aus den vorangehenden und nachfolgenden Blöcken einbezogen werden. |
Chunking Strategy |
Strategie zur Aufteilung von Text in Blöcke. Die Option „Recursive Delimiters“ teilt den Text nach dem Algorithmus der rekursiven Aufteilung nach Zeichen in Blöcke auf. Bei diesem Algorithmus wird der Eingabetext durch das erste Trennzeichen aufgespalten und wieder zu Blöcken zusammengefügt, die die „Max Chunk Length“ nicht überschreiten. Alle Teilungen, die die „Max Chunk Length“ überschreiten, werden dann rekursiv anhand des nächsten Trennzeichens geteilt. Die Option „Max Chunk Length“ teilt den Text in Blöcke auf, die die Größe von „Max Chunk Length“ haben. |
Sprache |
Sprache, die für das Parsen von Sätzen verwendet wird. |
Max Chunk Length |
Maximale Anzahl von Zeichen, die in den Ausgabeblock aufgenommen werden sollen. Wenn Sie diesen Wert zu hoch einstellen, kann es zu einem Speicherfehler kommen. |
Record Reader |
Der Record Reader, der zum Lesen des FlowFile verwendet wird. |
Record Writer |
Der Record Writer, der zum Schreiben der Ergebnisse verwendet wird. |
Sentence Similarity Threshold |
Schwellenwert zur Bestimmung, ob zwei Sätze ähnlich genug sind, um denselben Block zu belegen. Ein Wert von 1,0 bedeutet, dass die Sätze identisch sind. Ein Wert von 0,0 bedeutet, dass die Sätze völlig unähnlich sind. |
Text Record Path |
Der Datensatzpfad zu einem Textfeld im Datensatz. |
Trim Whitespace |
Leerzeichen rund um den ausgegebenen Textblock abschneiden. |
Beziehungen¶
Name |
Beschreibung |
---|---|
original |
Das Eingabe-FlowFile wird an die Beziehung „original“ weitergeleitet. |
success |
Textblöcke werden an die Beziehung „success“ weitergeleitet. |
Schreibt Attribute¶
Name |
Beschreibung |
---|---|
chunk.strategy |
Strategie zum Aufteilen von Text in Blöcke. Entweder „‘Max Chunk Length“, „Recursive Delimiters“, „Sentence“, „Semantic“. |
chunk.semantic.threshold |
Schwellenwert zur Bestimmung, ob zwei Sätze ähnlich genug sind, um denselben Block zu belegen. Dieses Attribut wird nur hinzugefügt, wenn die Chunking-Strategie „Semantic“ verwendet wird. |
chunk.language |
Sprache, die zum Analysieren von Sätzen verwendet wird. Dieses Attribut wird nur hinzugefügt, wenn die Chunking-Strategie „Sentence“ oder „Semantic“ verwendet wird. |
chunk.delimiters |
Durch Kommas getrennte Liste von Trennzeichen, die zum Aufteilen von Text in Blöcke verwendet werden. Dieses Attribut wird nur hinzugefügt, wenn die Chunking-Strategie „Recursive Delimiters“ verwendet wird. |
chunk.max.chars |
Maximale Anzahl von Zeichen, die in jedem Block enthalten sein dürfen. |