ExtractText 2025.5.31.15¶
Bundle¶
org.apache.nifi | nifi-standard-nar
Beschreibung¶
Wertet einen oder mehrere reguläre Ausdrücke gegen den Inhalt eines FlowFile aus. Die Ergebnisse dieser regulären Ausdrücke werden den FlowFile-Attributen zugewiesen. Reguläre Ausdrücke werden durch Hinzufügen von benutzerdefinierten Eigenschaften eingegeben. Der Name der Eigenschaft wird dem Attributnamen zugeordnet, in den das Ergebnis eingefügt wird. Die Attribute werden je nach Aktivierung der benannten Erfassungsgruppen unterschiedlich generiert. Wenn benannte Erfassungsgruppen nicht aktiviert sind: Die erste Erfassungsgruppe, sofern vorhanden, wird in diesen Attributnamen eingefügt. Alle Erfassungsgruppen, einschließlich der übereinstimmenden Zeichenfolge selbst, werden jedoch auch unter diesem Attributnamen mit einem Indexwert bereitgestellt, mit Ausnahme einer Erfassungsgruppe, die optional ist und nicht übereinstimmt – beispielsweise würden wir bei dem Attributnamen „regex“ und dem Ausdruck „abc(def)?(g)“ ein Attribut „regex.1“ mit dem Wert „def“ hinzufügen, wenn „def” übereinstimmt. Wenn „def“ nicht übereinstimmt, wird kein Attribut mit dem Namen „regex.1“ hinzugefügt, aber ein Attribut mit dem Namen „regex.2“ und dem Wert „g“ wird trotzdem hinzugefügt. Wenn benannte Erfassungsgruppen aktiviert sind: Jede gefundene benannte Erfassungsgruppe wird in dem Attributnamen mit dem angegebenen Namen eingefügt. Wenn diese Option aktiviert ist, wird die übereinstimmende Zeichenfolge selbst in den Attributnamen eingefügt. Wenn mehrere Übereinstimmungen aktiviert sind, wird der Index nach dem ersten Satz von Übereinstimmungen angewendet. Ausnahme ist eine optionale Erfassungsgruppe, die nicht übereinstimmt. Zum Beispiel würden wir bei dem Attributnamen „regex“ und dem Ausdruck „abc(?<NAMED>def)?(?<NAMED-TWO>g)“ ein Attribut „regex.NAMED“ mit dem Wert „def“ hinzufügen, wenn „def“ übereinstimmt. Wir würden ein Attribut „regex.NAMED-TWO“ mit dem Wert „g“ hinzufügen, wenn „g“ unabhängig davon übereinstimmt. Der Wert der Eigenschaft muss ein gültiger regulärer Ausdruck mit einer oder mehreren Erfassungsgruppen sein. Wenn benannte Erfassungsgruppen aktiviert sind, müssen alle Erfassungsgruppen benannt werden. Wenn dies nicht der Fall ist, schlägt die Überprüfung der Prozessorkonfiguration fehl. Wenn der reguläre Ausdruck mehr als einmal übereinstimmt, wird nur die erste Übereinstimmung verwendet, es sei denn, die Eigenschaft, die wiederholte Erfassungsgruppen aktiviert, ist auf „true“ gesetzt. Wenn einer der angegebenen regulären Ausdrücke übereinstimmt, wird das FlowFile an die Beziehung „matched“ weitergeleitet. Wenn kein angegebener regulärer Ausdruck übereinstimmt, wird das FlowFile an die Beziehung „unmatched“ weitergeleitet und keine Attribute werden auf das FlowFile angewendet.
Eingabeanforderung¶
REQUIRED
Unterstützt sensible dynamische Eigenschaften¶
false
Eigenschaften¶
Eigenschaft |
Beschreibung |
---|---|
Zeichensatz |
Der Zeichensatz, in dem die Datei codiert ist |
Enable Canonical Equivalence |
Gibt an, dass zwei Zeichen nur dann übereinstimmen, wenn ihre vollständigen kanonischen Zerlegungen übereinstimmen. |
Enable Case-insensitive Matching |
Zeigt an, dass zwei Zeichen übereinstimmen, auch wenn sie unterschiedliche Groß-/Kleinschreibung aufweisen. Kann auch über das eingebettete Flag (?i) angegeben werden. |
Enable DOTALL Mode |
Gibt an, dass der Ausdruck „.“ mit jedem Zeichen übereinstimmen muss, einschließlich eines Zeilenendezeichens. Kann auch über das eingebettete Flag (?s) angegeben werden. |
Enable Literal Parsing of the Pattern |
Gibt an, dass Metazeichen und Escape-Zeichen keine besondere Bedeutung haben sollen. |
Enable Multiline Mode |
Gibt an, dass „^“ und „$“ direkt nach und vor einem Zeilenende oder dem Ende einer Sequenz übereinstimmen sollen, anstatt nur am Anfang oder Ende der gesamten Eingabe. Kann auch über das eingebettete Flag (?m) angegeben werden. |
Enable Unicode Predefined Character Classes |
Gibt die Konformität mit dem Unicode Technical Standard #18: Unicode Regular Expression Annex C: Compatibility Properties an. Kann auch über das eingebettete Flag (?U) angegeben werden. |
Enable Unicode-aware Case Folding |
Wenn diese Option zusammen mit „Enable Case-insensitive Matching“ verwendet wird, werden Übereinstimmungen gemäß dem Unicode-Standard gefunden. Kann auch über das eingebettete Flag (?u) angegeben werden. |
Enable Unix Lines Mode |
Gibt an, dass nur das Zeilenendezeichen ‚‘ im Verhalten von „.“, „^“ und „$“ erkannt wird. Kann auch über das eingebettete Flag (?d) angegeben werden. |
Enable named group support |
Wenn diese Option auf „true“ gesetzt ist, wird, wenn benannte Gruppen im regulären Ausdruck vorhanden sind, der Name der Gruppe im Attributnamen verwendet und nicht der Gruppenindex. Alle Erfassungsgruppen müssen benannt werden. Wenn die Anzahl der Gruppen (ohne Erfassungsgruppe 0) nicht der Anzahl der benannten Gruppen entspricht, schlägt die Validierung fehl. |
Enable repeating capture group |
Wenn diese Einstellung auf „true“ gesetzt ist, wird jede Zeichenfolge, die mit den Erfassungsgruppen übereinstimmt, extrahiert. Andernfalls wird bei mehreren Übereinstimmungen mit dem regulären Ausdruck nur die erste Übereinstimmung extrahiert. |
Include Capture Group 0 |
Gibt an, dass Erfassungsgruppe 0 als Attribut enthalten sein soll. Capture Group 0 steht für die Gesamtheit der Übereinstimmung mit dem regulären Ausdruck, wird normalerweise nicht verwendet und kann sehr lang sein. |
Maximum Buffer Size |
Gibt die maximale Datenmenge an, die (pro FlowFile) gepuffert werden soll, um die regulären Ausdrücke anzuwenden. FlowFiles, die größer als das angegebene Maximum sind, werden nicht vollständig ausgewertet. |
Maximum Capture Group Length |
Gibt die maximale Anzahl von Zeichen an, die ein bestimmter Erfassungsgruppenwert haben kann. Alle Zeichen, die über das Maximum hinausgehen, werden abgeschnitten. |
Leerzeichen und Kommentare in Mustern zulassen |
In diesem Modus werden Leerzeichen ignoriert und eingebettete Kommentare, die mit # beginnen, bis zum Ende der Zeile ignoriert. Kann auch über das eingebettete Flag (?x) angegeben werden. |
Beziehungen¶
Name |
Beschreibung |
---|---|
matched |
FlowFiles werden an diese Beziehung weitergeleitet, wenn der reguläre Ausdruck erfolgreich ausgewertet und das FlowFile daraufhin geändert wurde. |
unmatched |
FlowFiles werden an diese Beziehung weitergeleitet, wenn kein angegebener regulärer Ausdruck mit dem Inhalt des FlowFile übereinstimmt. |