ExtractText 2025.10.2.19

バンドル

org.apache.nifi | nifi-standard-nar

説明

FlowFile の内容に対して、1つ以上の正規表現を評価します。これらの正規表現の結果は、FlowFile 属性に割り当てられます。正規表現は、ユーザー定義のプロパティを追加することによって入力されます。プロパティの名前は、結果が配置される属性名に対応します。属性は、名前付きキャプチャグループを有効にすることに基づいて、異なる形で生成されます。名前付きキャプチャグループが有効になっていない場合、次のようになります。最初のキャプチャグループが見つかれば、その属性名に配置されます。しかし、一致する文字列シーケンスそのものを含むすべてのキャプチャグループは、オプションであり一致しなかったキャプチャグループを除いて、インデックス値が提供されたその属性名でも提供されます。たとえば、属性名「regex」と式「abc(def)?(g)」が与えられた場合、「def」が一致すれば、「def」という値を持つ属性「regex.1」を追加することになります。「def」が一致しなかった場合、「regex.1」という名前の属性は追加されませんが、「g」という値を持つ「regex.2」という名前の属性は関係なく追加されます。名前付きキャプチャグループが有効になっている場合、次のようになります。それぞれの名前の付いたキャプチャグループが見つかれば、指定された名前で属性名に配置されます。有効になっている場合、一致する文字列シーケンスそのものが属性名に配置されます。複数の一致が有効な場合、インデックスは最初の一連の一致の後に適用されます。例外として、オプションでありながら一致しないキャプチャグループが挙げられます。たとえば、属性名「regex」と式「abc(?<NAMED>def)?(?<NAMED-TWO>g)」が与えられた場合、「def」が一致すれば、「def」という値を持つ属性「regex. NAMED」を追加することになります。一致するかどうかにかかわらず、「g」が一致した場合は、「regex. NAMED-TWO」という属性に「g」という値を追加します。プロパティの値は、1つ以上のキャプチャグループを持つ有効な正規表現でなければなりません。名前付きキャプチャグループが有効な場合は、すべてのキャプチャグループに名前を付ける必要があります。そうでない場合、プロセッサー構成の検証は失敗します。正規表現が複数回一致した場合、キャプチャグループの繰り返しを有効にするプロパティがtrueに設定されていない限り、最初に一致したものだけが使用されます。指定された正規表現が一致した場合、FlowFile は「matched」にルーティングされます。指定された正規表現が一致しない場合、FlowFile は「unmatched」にルーティングされ、FlowFile に属性は適用されません。

タグ

正規表現, テキスト, 評価, 抽出, regex

入力要件

REQUIRED

機密動的プロパティをサポート

false

プロパティ

プロパティ

説明

文字セット

ファイルがエンコードされている文字セット

正準同値の有効化

2つの文字が一致するのは、その完全な正準分解が一致するときだけであることを示します。

大文字と小文字を区別しない一致を有効にします。

大文字と小文字が異なっていても、2つの文字が一致することを示します。埋め込みフラグ(?i)で指定することもできます。

DOTALL モードの有効化

式「.」があらゆる文字(改行文字を含む)に一致する必要があることを示します。埋め込みフラグ(?s)で指定することもできます。

パターンのリテラル解析の有効化

メタ文字とエスケープ文字に特別な意味を与えないことを示します。

マルチラインモードの有効化

「^」と「$」が、入力全体の先頭や末尾だけでなく、改行文字の直後や直前、またはシーケンスの末尾にも一致する必要があることを示します。埋め込みフラグ(?m)で指定することもできます。

Unicode 定義済み文字クラスの有効化

Unicode技術標準#18への適合性を指定します。Unicode正規表現付録C:互換性プロパティ。埋め込みフラグ(?U)で指定することもできます。

Unicodeを意識した大文字と小文字の折りたたみの有効化

「大文字と小文字を区別しない一致を有効にする」と併用すると、Unicode標準に準拠したマッチングを行います。埋め込みフラグ(?u)で指定することもできます。

Unixラインモードの有効化

「.」、「^」、「$」の動作において、改行文字のみを認識することを示します。埋め込みフラグ(?d)で指定することもできます。

名前付きグループサポートの有効化

trueに設定すると、正規表現に名前付きグループが存在する場合、グループインデックスではなくグループ名が属性名に使用されます。キャプチャグループはすべて名前付きでなければならず、グループの数(キャプチャグループ0を除く)が名前付きグループの数と同じでない場合、検証は失敗します。

繰り返しキャプチャグループの有効化

trueにセットすると、キャプチャグループにマッチする文字列がすべて抽出されます。そうでない場合、正規表現が複数回一致すると、最初に一致したものだけが抽出されます。

キャプチャグループ0を含む

キャプチャグループ0を属性として含めることを示します。キャプチャグループ0は正規表現一致の全体を表し、通常は使用されず、かなりの長さになる可能性があります。

最大バッファサイズ

正規表現を適用するためにバッファリングするデータの最大量 (FlowFile ごと) を指定します。FlowFiles が指定された最大値より大きい場合は、完全に評価されません。

最大キャプチャグループ長

キャプチャーグループの値の最大文字数を指定します。最大値を超える文字は切り捨てられます。

パターン内の空白とコメントの許可

このモードでは、空白は無視され、#で始まる埋め込みコメントは行末まで無視されます。埋め込みフラグ(?x)で指定することもできます。

リレーションシップ

名前

説明

matched

FlowFiles がこの関係にルーティングされるのは、正規表現が正常に評価され、その結果 FlowFile が変更されたときです。

unmatched

FlowFiles の内容に一致する正規表現がない場合は、このリレーションに FlowFile がルーティングされます。