ChunkText 2025.5.31.15

バンドル

com.snowflake.openflow.runtime | runtime-chunking-nar

説明

区切り文字や最大文字数で再帰的に分割するオプションを使用して、テキストをチャンクします。各チャンクには次の属性が与えられます: fragment.識別子、 fragment.インデックス、 fragment.カウント、 segment.オリジナルファイル名。; これらの属性には、 FlowFile を再構成するために、 MergeContent プロセッサーによって使用されることができます。

タグ

チャンク、オープンフロー、テキスト

入力要件

REQUIRED

機密動的プロパティをサポート

false

プロパティ

プロパティ

説明

チャンク 区切り記号

Specifies a comma-separated list of character sequences. Meta-characters n, r and t are automatically un-escaped. Delimiters are recursively applied in order to chunk the text.

チャンクの重なり

前後のチャンクから含める最大文字数。

チャンク ストラテジー

テキストをチャンクするストラテジー。「再帰的区切り文字」は、文字による再帰的分割アルゴリズムに従ってテキストをチャンクします。このアルゴリズムでは、入力テキストは最初の区切り文字で分割され、「最大チャンク長」を超えないチャンクにマージされます。「最大チャンク長」を超える分割は、次の区切り文字を使用して再帰的に分割されます。「Max Chunk Length」は、「Max Chunk Length」サイズのチャンクを作成してテキストをチャンクします。

言語

文の解析に使用する言語。

最大チャンク長

出力チャンクに含める最大文字数。この数値を高くセットしすぎると、メモリ不足エラーになることがあります。

文の類似度のしきい値

2つの文が同じチャンクを占めるほど似ているかどうかを判断するためのしきい値。1.0の値は、文がID同一であることを示します。0.0の値は、文章が完全に非類似であることを示します。

ホワイトスペースのトリミング

出力テキストチャンクを囲む空白をトリミングします。

リレーションシップ

名前

説明

original

入力されたフローファイルは、元のリレーションシップにルーティングされます。

success

テキストチャンクはサクセスリレーションにルーティングされます。

属性の書き込み

名前

説明

セグメント.オリジナル.ファイル名

入力フローファイルのオリジナルファイル名。

フラグメント識別子

各チャンクの生成に使用される親フローファイルの ID

フラグメント.インデックス

0から始まる現在のフローファイルのチャンクのインデックス。

フラグメント.数

生成されたフローファイルチャンクの総カウント。

チャンク.スタート.オフセット

chunk.start.offsets属性は、オリジナルの受信 FlowFile にのみ追加されます。これは、生成される各チャンクの開始オフセットをカンマで区切ったリストです。例えば、 FlowFile が3つの子 FlowFiles にチャンクされている場合、 0,183,365 という値を持つかもしれません。これは、最初のチャンクがオフセット0から始まり、2番目のチャンクがオフセット183から始まり、3番目のチャンクがオフセット365から始まることを示します。オフセットは文字数で決まります。

チャンク.エンド.オフセット

chunk.end.offsets属性は、オリジナルの受信 FlowFile にのみ追加されます。これは、生成される各チャンクの終了オフセットをカンマで区切ったリストです。例えば、 FlowFile が3つの子 FlowFiles にチャンクされている場合、 183,365,548 という値を持つかもしれません。これは、1つ目のチャンクがオフセット183で終了し、2つ目のチャンクがオフセット365で終了し、3つ目のチャンクがオフセット548で終了することを示します。オフセットは文字数で決まります。

チャンク.ストラテジー

テキストをチャンクするためのストラテジー。'Max Chunk Length'、'Recursive Delimiters'、'Sentence'、'Semantic' のいずれか。

チャンク.セマンティック.しきい値

2つの文が同じチャンクを占めるほど似ているかどうかを判断するためのしきい値。この属性は'Semantic'チャンク戦略使用時のみ追加されます。

チャンク.言語

文の解析に使用される言語。この属性は「文」または「意味」のチャンク戦略を使用する場合にのみ追加されます。

チャンク.区切り文字

テキストのチャンクに使用する区切り文字のカンマ区切りリスト。この属性は 'Recursive Delimiters' チャンク・ストラテジーを使用する場合にのみ追加されます。

チャンク.最大.文字数

各チャンクに含める最大文字数。