ExtractText 2025.10.2.19¶
Bundle¶
org.apache.nifi | nifi-standard-nar
Beschreibung¶
Wertet einen oder mehrere reguläre Ausdrücke anhand des Inhalts eines FlowFile aus. Die Ergebnisse dieser regulären Ausdrücke werden FlowFile-Attributen zugewiesen. Reguläre Ausdrücke werden eingegeben, indem benutzerdefinierte Eigenschaften hinzugefügt werden. Der Name der Eigenschaft wird dem Attributnamen zugeordnet, in dem das Ergebnis platziert wird. Die Attribute werden je nach Aktivierung von benannten Erfassungsgruppen unterschiedlich generiert. Wenn benannte Erfassungsgruppen nicht aktiviert sind: Die erste Erfassungsgruppe, falls vorhanden, wird in diesem Attributnamen platziert. Aber alle Erfassungsgruppen, einschließlich der passenden Zeichenfolgensequenz selbst, werden ebenfalls unter diesem Attributnamen mit einem Indexwert bereitgestellt; die Ausnahme einer Erfassungsgruppe, die optional ist und nicht übereinstimmt – zum Beispiel, wenn der Attributname „regex“ mit dem Ausdruck „abc(def?(g)“ angegeben wird, würden wir ein Attribut „regex.1“ mit dem Wert „def“ hinzufügen, wenn „def“ übereinstimmt. Wenn „def“ nicht übereinstimmt, wird kein Attribut namens „regex.1“ hinzugefügt, aber ein Attribut namens „regex.2“ mit dem Wert „g“ wird trotzdem hinzugefügt. Wenn benannte Erfassungsgruppen aktiviert sind: Jede benannte Erfassungsgruppe, die gefunden wird, wird in das Attribut „Name“ mit dem angegebenen Namen eingefügt. Wenn aktiviert, wird die übereinstimmende Zeichenfolge selbst in den Attributnamen eingefügt. Wenn mehrere Übereinstimmungen aktiviert sind, wird der Index nach der ersten Gruppe von Übereinstimmungen angewendet. Die Ausnahme ist eine Erfassungsgruppe, die optional ist und nicht übereinstimmt. Beispiel: Wenn der Attributname „regex“ und der Ausdruck „abc(?)<NAMED>def);(?<NAMED-TWO>g)“ lautet, wird ein Attribut „regex.NAMED“ mit dem Wert von „def“ hinzugefügt, wenn „def“ übereinstimmt. Wir würden ein Attribut „regex“.NAMED-TWO“ mit dem Wert „g“ hinzufügen, wenn „g“ trotzdem übereinstimmt. Der Wert der Eigenschaft muss ein gültiger regulärer Ausdruck mit einer oder mehreren Erfassungsgruppen sein. Wenn benannte Erfassungsgruppen aktiviert sind, müssen alle Erfassungsgruppen benannt werden. Wenn dies nicht der Fall ist, schlägt die Validierung der Prozessorkonfiguration fehl. Wenn der reguläre Ausdruck mehr als einmal übereinstimmt, wird nur die erste Übereinstimmung verwendet, es sei denn, die Eigenschaft, die eine sich wiederholende Erfassungsgruppe ermöglicht, ist auf „true“ gesetzt. Wenn ein angegebener regulärer Ausdruck übereinstimmt, wird das FlowFile(s) an „matched“ weitergeleitet. Wenn kein angegebener regulärer Ausdruck übereinstimmt, wird das FlowFile an „unmatched“ weitergeleitet, und es werden keine Attribute auf das FlowFile angewendet.
Eingabeanforderung¶
REQUIRED
Unterstützt sensible dynamische Eigenschaften¶
false
Eigenschaften¶
Eigenschaft |
Beschreibung |
|---|---|
Zeichensatz |
Der Zeichensatz, in dem die Datei codiert ist |
Enable Canonical Equivalence |
Gibt an, dass zwei Zeichen nur dann übereinstimmen, wenn ihre vollständigen kanonischen Zerlegungen übereinstimmen. |
Enable Case-insensitive Matching |
Zeigt an, dass zwei Zeichen übereinstimmen, auch wenn die Groß-/Kleinschreibung unterschiedlich ist. Kann auch über das eingebettete Flag (?i) angegeben werden. |
Enable DOTALL Mode |
Zeigt an, dass der Ausdruck „.“ mit einem beliebigen Zeichen übereinstimmen muss, einschließlich eines Zeilenendzeichens. Kann auch über das eingebettete Flag (?s) angegeben werden. |
Enable Literal Parsing of the Pattern |
Gibt an, dass Metazeichen und Escape-Zeichen keine besondere Bedeutung haben sollen. |
Enable Multiline Mode |
Gibt an, dass „^“ und „$“ direkt nach und direkt vor einem Zeilenendzeichen oder dem Ende der Sequenz übereinstimmen sollen, anstatt nur am Anfang oder Ende der gesamten Eingabe. Kann auch über das eingebettete Flag (?m) angegeben werden. |
Enable Unicode Predefined Character Classes |
Gibt die Konformität mit dem technischen Unicode-Standard #18 an: Anhang C für reguläre Unicode-Ausdrücke: Kompatibilitätseigenschaften. Kann auch über das eingebettete Flag (?U) angegeben werden. |
Enable Unicode-aware Case Folding |
Bei Verwendung mit „Enable Case-insensitive Matching“ wird die Übereinstimmung entsprechend dem Unicode-Standard abgeglichen. Kann auch über das eingebettete Flag (?u) angegeben werden. |
Enable Unix Lines Mode |
Gibt an, dass nur das Zeilenendzeichen im Verhalten von „. ^ und $“ erkannt wird. Kann auch über das eingebettete Flag (?d) angegeben werden. |
Enable named group support |
Bei der Einstellung „true“ wird bei Vorhandensein von benannten Gruppen im regulären Ausdruck der Name der Gruppe im Attributnamen und nicht im Gruppenindex verwendet. Alle Erfassungsgruppen müssen benannt werden. Wenn die Anzahl der Gruppen (nicht einschließlich der Erfassungsgruppe 0) nicht der Anzahl der benannten Gruppen entspricht, schlägt die Validierung fehl. |
Enable repeating capture group |
Wenn diese Einstellung auf „true“ gesetzt ist, wird jede Zeichenfolge, die mit den Erfassungsgruppen übereinstimmt, extrahiert. Andernfalls wird bei mehreren Übereinstimmungen mit dem regulären Ausdruck nur die erste Übereinstimmung extrahiert. |
Include Capture Group 0 |
Gibt an, dass Erfassungsgruppe 0 als Attribut enthalten sein soll. Capture Group 0 steht für die Gesamtheit der Übereinstimmung mit dem regulären Ausdruck, wird normalerweise nicht verwendet und kann sehr lang sein. |
Maximum Buffer Size |
Gibt die maximale Datenmenge an, die (pro FlowFile) gepuffert werden soll, um die regulären Ausdrücke anzuwenden. FlowFiles, die größer als das angegebene Maximum sind, werden nicht vollständig ausgewertet. |
Maximum Capture Group Length |
Gibt die maximale Anzahl von Zeichen an, die ein bestimmter Erfassungsgruppenwert haben kann. Alle Zeichen, die über das Maximum hinausgehen, werden abgeschnitten. |
Leerzeichen und Kommentare in Mustern zulassen |
In diesem Modus werden Leerzeichen ignoriert, und eingebettete Kommentare, die mit # beginnen, werden bis zum Ende einer Zeile ignoriert. Kann auch über das eingebettete Flag (?x) angegeben werden. |
Beziehungen¶
Name |
Beschreibung |
|---|---|
matched |
FlowFiles werden an diese Beziehung weitergeleitet, wenn der reguläre Ausdruck erfolgreich ausgewertet und das FlowFile daraufhin geändert wurde. |
unmatched |
FlowFiles werden an diese Beziehung weitergeleitet, wenn kein angegebener regulärer Ausdruck mit dem Inhalt des FlowFile übereinstimmt. |