ChunkText 2025.5.31.15¶
バンドル¶
com.snowflake.openflow.runtime | runtime-chunking-nar
説明¶
区切り文字や最大文字数で再帰的に分割するオプションを使用して、テキストをチャンクします。各チャンクには次の属性が与えられます: fragment.識別子、 fragment.インデックス、 fragment.カウント、 segment.オリジナルファイル名。; これらの属性には、 FlowFile を再構成するために、 MergeContent プロセッサーによって使用されることができます。
入力要件¶
REQUIRED
機密動的プロパティをサポート¶
false
プロパティ¶
プロパティ |
説明 |
---|---|
チャンク 区切り記号 |
Specifies a comma-separated list of character sequences. Meta-characters n, r and t are automatically un-escaped. Delimiters are recursively applied in order to chunk the text. |
チャンクの重なり |
前後のチャンクから含める最大文字数。 |
チャンク ストラテジー |
テキストをチャンクするストラテジー。「再帰的区切り文字」は、文字による再帰的分割アルゴリズムに従ってテキストをチャンクします。このアルゴリズムでは、入力テキストは最初の区切り文字で分割され、「最大チャンク長」を超えないチャンクにマージされます。「最大チャンク長」を超える分割は、次の区切り文字を使用して再帰的に分割されます。「Max Chunk Length」は、「Max Chunk Length」サイズのチャンクを作成してテキストをチャンクします。 |
言語 |
文の解析に使用する言語。 |
最大チャンク長 |
出力チャンクに含める最大文字数。この数値を高くセットしすぎると、メモリ不足エラーになることがあります。 |
文の類似度のしきい値 |
2つの文が同じチャンクを占めるほど似ているかどうかを判断するためのしきい値。1.0の値は、文がID同一であることを示します。0.0の値は、文章が完全に非類似であることを示します。 |
ホワイトスペースのトリミング |
出力テキストチャンクを囲む空白をトリミングします。 |
リレーションシップ¶
名前 |
説明 |
---|---|
original |
入力されたフローファイルは、元のリレーションシップにルーティングされます。 |
success |
テキストチャンクはサクセスリレーションにルーティングされます。 |
属性の書き込み¶
名前 |
説明 |
---|---|
セグメント.オリジナル.ファイル名 |
入力フローファイルのオリジナルファイル名。 |
フラグメント識別子 |
各チャンクの生成に使用される親フローファイルの ID |
フラグメント.インデックス |
0から始まる現在のフローファイルのチャンクのインデックス。 |
フラグメント.数 |
生成されたフローファイルチャンクの総カウント。 |
チャンク.スタート.オフセット |
chunk.start.offsets属性は、オリジナルの受信 FlowFile にのみ追加されます。これは、生成される各チャンクの開始オフセットをカンマで区切ったリストです。例えば、 FlowFile が3つの子 FlowFiles にチャンクされている場合、 |
チャンク.エンド.オフセット |
chunk.end.offsets属性は、オリジナルの受信 FlowFile にのみ追加されます。これは、生成される各チャンクの終了オフセットをカンマで区切ったリストです。例えば、 FlowFile が3つの子 FlowFiles にチャンクされている場合、 |
チャンク.ストラテジー |
テキストをチャンクするためのストラテジー。'Max Chunk Length'、'Recursive Delimiters'、'Sentence'、'Semantic' のいずれか。 |
チャンク.セマンティック.しきい値 |
2つの文が同じチャンクを占めるほど似ているかどうかを判断するためのしきい値。この属性は'Semantic'チャンク戦略使用時のみ追加されます。 |
チャンク.言語 |
文の解析に使用される言語。この属性は「文」または「意味」のチャンク戦略を使用する場合にのみ追加されます。 |
チャンク.区切り文字 |
テキストのチャンクに使用する区切り文字のカンマ区切りリスト。この属性は 'Recursive Delimiters' チャンク・ストラテジーを使用する場合にのみ追加されます。 |
チャンク.最大.文字数 |
各チャンクに含める最大文字数。 |