ExtractText 2025.10.2.19¶
バンドル¶
org.apache.nifi | nifi-standard-nar
説明¶
FlowFile の内容に対して、1つ以上の正規表現を評価します。これらの正規表現の結果は、FlowFile 属性に割り当てられます。正規表現は、ユーザー定義のプロパティを追加することによって入力されます。プロパティの名前は、結果が配置される属性名に対応します。属性は、名前付きキャプチャグループを有効にすることに基づいて、異なる形で生成されます。名前付きキャプチャグループが有効になっていない場合、次のようになります。最初のキャプチャグループが見つかれば、その属性名に配置されます。しかし、一致する文字列シーケンスそのものを含むすべてのキャプチャグループは、オプションであり一致しなかったキャプチャグループを除いて、インデックス値が提供されたその属性名でも提供されます。たとえば、属性名「regex」と式「abc(def)?(g)」が与えられた場合、「def」が一致すれば、「def」という値を持つ属性「regex.1」を追加することになります。「def」が一致しなかった場合、「regex.1」という名前の属性は追加されませんが、「g」という値を持つ「regex.2」という名前の属性は関係なく追加されます。名前付きキャプチャグループが有効になっている場合、次のようになります。それぞれの名前の付いたキャプチャグループが見つかれば、指定された名前で属性名に配置されます。有効になっている場合、一致する文字列シーケンスそのものが属性名に配置されます。複数の一致が有効な場合、インデックスは最初の一連の一致の後に適用されます。例外として、オプションでありながら一致しないキャプチャグループが挙げられます。たとえば、属性名「regex」と式「abc(?<NAMED>def)?(?<NAMED-TWO>g)」が与えられた場合、「def」が一致すれば、「def」という値を持つ属性「regex. NAMED」を追加することになります。一致するかどうかにかかわらず、「g」が一致した場合は、「regex. NAMED-TWO」という属性に「g」という値を追加します。プロパティの値は、1つ以上のキャプチャグループを持つ有効な正規表現でなければなりません。名前付きキャプチャグループが有効な場合は、すべてのキャプチャグループに名前を付ける必要があります。そうでない場合、プロセッサー構成の検証は失敗します。正規表現が複数回一致した場合、キャプチャグループの繰り返しを有効にするプロパティがtrueに設定されていない限り、最初に一致したものだけが使用されます。指定された正規表現が一致した場合、FlowFile は「matched」にルーティングされます。指定された正規表現が一致しない場合、FlowFile は「unmatched」にルーティングされ、FlowFile に属性は適用されません。
入力要件¶
REQUIRED
機密動的プロパティをサポート¶
false
プロパティ¶
プロパティ |
説明 |
|---|---|
文字セット |
ファイルがエンコードされている文字セット |
正準同値の有効化 |
2つの文字が一致するのは、その完全な正準分解が一致するときだけであることを示します。 |
大文字と小文字を区別しない一致を有効にします。 |
大文字と小文字が異なっていても、2つの文字が一致することを示します。埋め込みフラグ(?i)で指定することもできます。 |
DOTALL モードの有効化 |
式「.」があらゆる文字(改行文字を含む)に一致する必要があることを示します。埋め込みフラグ(?s)で指定することもできます。 |
パターンのリテラル解析の有効化 |
メタ文字とエスケープ文字に特別な意味を与えないことを示します。 |
マルチラインモードの有効化 |
「^」と「$」が、入力全体の先頭や末尾だけでなく、改行文字の直後や直前、またはシーケンスの末尾にも一致する必要があることを示します。埋め込みフラグ(?m)で指定することもできます。 |
Unicode 定義済み文字クラスの有効化 |
Unicode技術標準#18への適合性を指定します。Unicode正規表現付録C:互換性プロパティ。埋め込みフラグ(?U)で指定することもできます。 |
Unicodeを意識した大文字と小文字の折りたたみの有効化 |
「大文字と小文字を区別しない一致を有効にする」と併用すると、Unicode標準に準拠したマッチングを行います。埋め込みフラグ(?u)で指定することもできます。 |
Unixラインモードの有効化 |
「.」、「^」、「$」の動作において、改行文字のみを認識することを示します。埋め込みフラグ(?d)で指定することもできます。 |
名前付きグループサポートの有効化 |
trueに設定すると、正規表現に名前付きグループが存在する場合、グループインデックスではなくグループ名が属性名に使用されます。キャプチャグループはすべて名前付きでなければならず、グループの数(キャプチャグループ0を除く)が名前付きグループの数と同じでない場合、検証は失敗します。 |
繰り返しキャプチャグループの有効化 |
trueにセットすると、キャプチャグループにマッチする文字列がすべて抽出されます。そうでない場合、正規表現が複数回一致すると、最初に一致したものだけが抽出されます。 |
キャプチャグループ0を含む |
キャプチャグループ0を属性として含めることを示します。キャプチャグループ0は正規表現一致の全体を表し、通常は使用されず、かなりの長さになる可能性があります。 |
最大バッファサイズ |
正規表現を適用するためにバッファリングするデータの最大量 (FlowFile ごと) を指定します。FlowFiles が指定された最大値より大きい場合は、完全に評価されません。 |
最大キャプチャグループ長 |
キャプチャーグループの値の最大文字数を指定します。最大値を超える文字は切り捨てられます。 |
パターン内の空白とコメントの許可 |
このモードでは、空白は無視され、#で始まる埋め込みコメントは行末まで無視されます。埋め込みフラグ(?x)で指定することもできます。 |
リレーションシップ¶
名前 |
説明 |
|---|---|
matched |
FlowFiles がこの関係にルーティングされるのは、正規表現が正常に評価され、その結果 FlowFile が変更されたときです。 |
unmatched |
FlowFiles の内容に一致する正規表現がない場合は、このリレーションに FlowFile がルーティングされます。 |