ExtractText 2025.10.9.21¶

Bundle¶

org.apache.nifi | nifi-standard-nar

Beschreibung¶

Wertet einen oder mehrere reguläre Ausdrücke anhand des Inhalts eines FlowFile aus. Die Ergebnisse dieser regulären Ausdrücke werden FlowFile-Attributen zugewiesen. Reguläre Ausdrücke werden eingegeben, indem benutzerdefinierte Eigenschaften hinzugefügt werden. Der Name der Eigenschaft wird dem Attributnamen zugeordnet, in dem das Ergebnis platziert wird. Die Attribute werden je nach Aktivierung von benannten Erfassungsgruppen unterschiedlich generiert. Wenn benannte Erfassungsgruppen nicht aktiviert sind: Die erste Erfassungsgruppe, falls vorhanden, wird in diesem Attributnamen platziert. Aber alle Erfassungsgruppen, einschließlich der passenden Zeichenfolgensequenz selbst, werden ebenfalls unter diesem Attributnamen mit einem Indexwert bereitgestellt; die Ausnahme einer Erfassungsgruppe, die optional ist und nicht übereinstimmt – zum Beispiel, wenn der Attributname „regex“ mit dem Ausdruck „abc(def?(g)“ angegeben wird, würden wir ein Attribut „regex.1“ mit dem Wert „def“ hinzufügen, wenn „def“ übereinstimmt. Wenn „def“ nicht übereinstimmt, wird kein Attribut namens „regex.1“ hinzugefügt, aber ein Attribut namens „regex.2“ mit dem Wert „g“ wird trotzdem hinzugefügt. Wenn benannte Erfassungsgruppen aktiviert sind: Jede benannte Erfassungsgruppe, die gefunden wird, wird in das Attribut „Name“ mit dem angegebenen Namen eingefügt. Wenn aktiviert, wird die übereinstimmende Zeichenfolge selbst in den Attributnamen eingefügt. Wenn mehrere Übereinstimmungen aktiviert sind, wird der Index nach der ersten Gruppe von Übereinstimmungen angewendet. Die Ausnahme ist eine Erfassungsgruppe, die optional ist und nicht übereinstimmt. Beispiel: Wenn der Attributname „regex“ und der Ausdruck „abc(?)<NAMED>def);(?<NAMED-TWO>g)“ lautet, wird ein Attribut „regex.NAMED“ mit dem Wert von „def“ hinzugefügt, wenn „def“ übereinstimmt. Wir würden ein Attribut „regex“.NAMED-TWO“ mit dem Wert „g“ hinzufügen, wenn „g“ trotzdem übereinstimmt. Der Wert der Eigenschaft muss ein gültiger regulärer Ausdruck mit einer oder mehreren Erfassungsgruppen sein. Wenn benannte Erfassungsgruppen aktiviert sind, müssen alle Erfassungsgruppen benannt werden. Wenn dies nicht der Fall ist, schlägt die Validierung der Prozessorkonfiguration fehl. Wenn der reguläre Ausdruck mehr als einmal übereinstimmt, wird nur die erste Übereinstimmung verwendet, es sei denn, die Eigenschaft, die eine sich wiederholende Erfassungsgruppe ermöglicht, ist auf „true“ gesetzt. Wenn ein angegebener regulärer Ausdruck übereinstimmt, wird das FlowFile(s) an „matched“ weitergeleitet. Wenn kein angegebener regulärer Ausdruck übereinstimmt, wird das FlowFile an „unmatched“ weitergeleitet, und es werden keine Attribute auf das FlowFile angewendet.

Tags¶

Regulärer Ausdruck, Text, auswerten, extrahieren, Regex

Eingabeanforderung¶

REQUIRED

Unterstützt sensible dynamische Eigenschaften¶

false

Eigenschaften¶

Eigenschaft	Beschreibung
Zeichensatz	Der Zeichensatz, in dem die Datei codiert ist
Enable Canonical Equivalence	Gibt an, dass zwei Zeichen nur dann übereinstimmen, wenn ihre vollständigen kanonischen Zerlegungen übereinstimmen.
Enable Case-insensitive Matching	Zeigt an, dass zwei Zeichen übereinstimmen, auch wenn die Groß-/Kleinschreibung unterschiedlich ist. Kann auch über das eingebettete Flag (?i) angegeben werden.
Enable DOTALL Mode	Zeigt an, dass der Ausdruck „.“ mit einem beliebigen Zeichen übereinstimmen muss, einschließlich eines Zeilenendzeichens. Kann auch über das eingebettete Flag (?s) angegeben werden.
Enable Literal Parsing of the Pattern	Gibt an, dass Metazeichen und Escape-Zeichen keine besondere Bedeutung haben sollen.
Enable Multiline Mode	Gibt an, dass „^“ und „$“ direkt nach und direkt vor einem Zeilenendzeichen oder dem Ende der Sequenz übereinstimmen sollen, anstatt nur am Anfang oder Ende der gesamten Eingabe. Kann auch über das eingebettete Flag (?m) angegeben werden.
Enable Unicode Predefined Character Classes	Gibt die Konformität mit dem technischen Unicode-Standard #18 an: Anhang C für reguläre Unicode-Ausdrücke: Kompatibilitätseigenschaften. Kann auch über das eingebettete Flag (?U) angegeben werden.
Enable Unicode-aware Case Folding	Bei Verwendung mit „Enable Case-insensitive Matching“ wird die Übereinstimmung entsprechend dem Unicode-Standard abgeglichen. Kann auch über das eingebettete Flag (?u) angegeben werden.
Enable Unix Lines Mode	Gibt an, dass nur das Zeilenendzeichen im Verhalten von „. ^ und $“ erkannt wird. Kann auch über das eingebettete Flag (?d) angegeben werden.
Enable named group support	Bei der Einstellung „true“ wird bei Vorhandensein von benannten Gruppen im regulären Ausdruck der Name der Gruppe im Attributnamen und nicht im Gruppenindex verwendet. Alle Erfassungsgruppen müssen benannt werden. Wenn die Anzahl der Gruppen (nicht einschließlich der Erfassungsgruppe 0) nicht der Anzahl der benannten Gruppen entspricht, schlägt die Validierung fehl.
Enable repeating capture group	Wenn diese Einstellung auf „true“ gesetzt ist, wird jede Zeichenfolge, die mit den Erfassungsgruppen übereinstimmt, extrahiert. Andernfalls wird bei mehreren Übereinstimmungen mit dem regulären Ausdruck nur die erste Übereinstimmung extrahiert.
Include Capture Group 0	Gibt an, dass Erfassungsgruppe 0 als Attribut enthalten sein soll. Capture Group 0 steht für die Gesamtheit der Übereinstimmung mit dem regulären Ausdruck, wird normalerweise nicht verwendet und kann sehr lang sein.
Maximum Buffer Size	Gibt die maximale Datenmenge an, die (pro FlowFile) gepuffert werden soll, um die regulären Ausdrücke anzuwenden. FlowFiles, die größer als das angegebene Maximum sind, werden nicht vollständig ausgewertet.
Maximum Capture Group Length	Gibt die maximale Anzahl von Zeichen an, die ein bestimmter Erfassungsgruppenwert haben kann. Alle Zeichen, die über das Maximum hinausgehen, werden abgeschnitten.
Leerzeichen und Kommentare in Mustern zulassen	In diesem Modus werden Leerzeichen ignoriert, und eingebettete Kommentare, die mit # beginnen, werden bis zum Ende einer Zeile ignoriert. Kann auch über das eingebettete Flag (?x) angegeben werden.

Beziehungen¶

Name	Beschreibung
matched	FlowFiles werden an diese Beziehung weitergeleitet, wenn der reguläre Ausdruck erfolgreich ausgewertet und das FlowFile daraufhin geändert wurde.
unmatched	FlowFiles werden an diese Beziehung weitergeleitet, wenn kein angegebener regulärer Ausdruck mit dem Inhalt des FlowFile übereinstimmt.