ChunkRecordText 2025.5.31.15

バンドル

com.snowflake.openflow.runtime | runtime-chunking-nar

説明

区切り文字や最大文字数で再帰的に分割するオプションを使用して、テキストをチャンクします。入力テキストは、構成されたRecord Reader形式に一致する記録指向の FlowFile です。

タグ

チャンク、オープンフロー、テキスト

入力要件

REQUIRED

機密動的プロパティをサポート

false

プロパティ

プロパティ

説明

チャンク数 フィールド名

元の記録から作成されたチャンクの総数を書き込む記録のフィールド名。

チャンク 区切り記号

Specifies a comma-separated list of character sequences. Meta-characters n, r and t are automatically un-escaped. Delimiters are recursively applied in order to chunk the text.

チャンク インデックス フィールド 名

チャンクインデックスを書き込む記録のフィールド名。

チャンクの重なり

前後のチャンクから含める最大文字数。

チャンク ストラテジー

テキストをチャンクするストラテジー。「再帰的区切り文字」は、文字による再帰的分割アルゴリズムに従ってテキストをチャンクします。このアルゴリズムでは、入力テキストは最初の区切り文字で分割され、「最大チャンク長」を超えないチャンクにマージされます。「最大チャンク長」を超える分割は、次の区切り文字を使用して再帰的に分割されます。「Max Chunk Length」は、「Max Chunk Length」サイズのチャンクを作成してテキストをチャンクします。

言語

文の解析に使用する言語。

最大チャンク長

出力チャンクに含める最大文字数。この数値を高くセットしすぎると、メモリ不足エラーになることがあります。

Record Reader

FlowFile を読むために使用するRecord Reader。

Record Writer

結果の書き込みに使用するRecord Writer。

文の類似度のしきい値

2つの文が同じチャンクを占めるほど似ているかどうかを判断するためのしきい値。1.0の値は、文がID同一であることを示します。0.0の値は、文章が完全に非類似であることを示します。

テキスト記録パス

レコード内のテキストフィールドへの記録パス。

ホワイトスペースのトリミング

出力テキストチャンクを囲む空白をトリミングします。

リレーションシップ

名前

説明

original

入力されたフローファイルは、元のリレーションシップにルーティングされます。

success

テキストチャンクはサクセスリレーションにルーティングされます。

属性の書き込み

名前

説明

チャンク.ストラテジー

テキストをチャンクするためのストラテジー。'Max Chunk Length'、'Recursive Delimiters'、'Sentence'、'Semantic' のいずれか。

チャンク.セマンティック.しきい値

2つの文が同じチャンクを占めるほど似ているかどうかを判断するためのしきい値。この属性は'Semantic'チャンク戦略使用時のみ追加されます。

チャンク.言語

文の解析に使用される言語。この属性は「文」または「意味」のチャンク戦略を使用する場合にのみ追加されます。

チャンク.区切り文字

テキストのチャンクに使用する区切り文字のカンマ区切りリスト。この属性は 'Recursive Delimiters' チャンク・ストラテジーを使用する場合にのみ追加されます。

チャンク.最大.文字数

各チャンクに含める最大文字数。