ExtractText 2025.10.2.19

Bundle

org.apache.nifi | nifi-standard-nar

Description

Évalue une ou plusieurs expressions régulières par rapport au contenu d’un FlowFile. Les résultats de ces expressions régulières sont affectés à Attributs FlowFile. Les expressions régulières sont saisies en ajoutant des propriétés définies par l’utilisateur ; le nom de la propriété correspond au nom d’attribut dans lequel le résultat sera placé. Les attributs sont générés différemment en fonction de l’activation des groupes de capture nommés. Si les groupes de capture nommés ne sont pas activés : Le premier groupe de capture, s’il est trouvé, sera placé dans ce nom d’attribut. Mais tous les groupes de capture, y compris la séquence de chaînes correspondante, seront également fournis à ce nom d’attribut avec une valeur d’index fournie, à l’exception d’un groupe de capture qui est facultatif et ne correspond pas - par exemple, étant donné le nom d’attribut « regex » et l’expression « abc(def)?(g) », nous ajoutons un attribut « regex.1 » avec une valeur de « def » si le « def » correspond. Si le « def » ne correspond pas, aucun attribut nommé « regex.1 » ne sera ajouté, mais un attribut nommé « regex.2 » avec la valeur « g » sera ajouté indépendamment. Si des groupes de capture nommés sont activés : Chaque groupe de capture nommé, s’il est trouvé, sera placé dans le nom des attributs avec le nom fourni. Si l’option est activée, la séquence des chaînes correspondantes sera placée dans le nom de l’attribut. Si plusieurs correspondances sont activées, et l’index sera appliqué après le premier ensemble de correspondances. L’exception est un groupe de capture qui est facultatif et ne correspond pas. Par exemple, étant donné le nom d’attribut « regex » et l’expression « abc(?<NAMED>def)?(?<NAMED-TWO>g) », nous ajoutons un attribut « regex. NAMED » avec la valeur de « def » si « def » correspond. Nous ajoutons un attribut « regex. NAMED-TWO » avec la valeur de « g » si « g » correspond. La valeur de la propriété doit être une expression régulière valide avec un ou plusieurs groupes de capture. Si les groupes de capture nommés sont activés, tous les groupes de capture doivent être nommés. Si ce n’est pas le cas, la configuration du processeur échouera à la validation. Si l’expression régulière correspond à plusieurs fois, seule la première correspondance sera utilisée à moins que la propriété permettant de répéter le groupe de capture soit définie sur true. Si une expression régulière fournie correspond, le ou les FlowFile(s) sera/seront acheminé(s) vers « matched (correspondant) ». Si aucune expression régulière fournie ne correspond, le FlowFile sera acheminé vers « unmatched (aucune correspondance) » et aucun attribut ne sera appliqué à FlowFile.

Balises

expression régulière, texte, évaluer, extraire, regex

Exigences en matière d’entrées

REQUIRED

Prend en charge les propriétés dynamiques sensibles

false

Propriétés

Propriété

Description

Jeu de caractères

L’ensemble de caractères dans lequel le fichier est encodé

Activer l’équivalence canonique

Indique que deux caractères ne correspondent que si leurs décompositions canoniques complètes correspondent.

Activer la correspondance insensible à la casse

Indique que deux caractères correspondent même s’ils sont dans une casse différente. Peut également être spécifié via l’indicateur intégré (?i).

Activer le mode DOTALL

Indique que l’expression “.” doit correspondre à n’importe quel caractère, y compris un terminateur de ligne. Peut également être spécifié via l’indicateur intégré (?s).

Activer l’analyse littérale du modèle

Indique que les métacaractères et les caractères d’échappement ne doivent avoir aucune signification particulière.

Activer le mode multiligne

Indique que « ^ » et « $ » doivent correspondre juste après et juste avant un terminateur de ligne ou une fin de séquence, au lieu de seulement le début ou la fin de l’entrée entière. Peut également être spécifié via l’indicateur intégré (?m).

Activer les classes de caractères prédéfinies Unicode

Spécifie la conformité à la norme technique Unicode #18 : expressions régulière Unicode Annexe C : Propriétés de compatibilité. Peut également être spécifié via l’indicateur intégré (?U).

Activer le rabattement de casse compatible Unicode

Lorsqu’utilisé avec « Activer la correspondance insensible à la casse », correspond de manière cohérente à la norme Unicode. Peut également être spécifié via l’indicateur intégré (?u).

Activer le mode lignes Unix

Indique que seul le « terminateur de ligne est reconnu dans le comportement de “. “,”^ “, and”$”. Peut également être spécifié via l’indicateur intégré (?d).

Activer la prise en charge des groupes nommés

Si la valeur est définie sur true, lorsque des groupes nommés sont présents dans l’expression régulière, le nom du groupe sera utilisé dans le nom d’attribut par opposition à l’index du groupe. Tous les groupes de capture doivent être nommés, si le nombre de groupes (sans le groupe de capture 0) n’est pas égal au nombre de groupes nommés, la validation échouera.

Activer la répétition du groupe de capture

Si la valeur est définie sur TRUE, toutes les chaînes qui correspondent aux groupes de capture seront extraites. Dans le cas contraire, si l’expression régulière correspond plusieurs fois, seule la première correspondance sera extraite.

Inclure le groupe de capture 0

Indique que le groupe de capture 0 doit être inclus en tant qu’attribut. Le groupe de capture 0 représente la totalité de la correspondance de l’expression régulière. Il n’est généralement pas utilisé et peut avoir une longueur considérable.

Taille maximale de la mémoire tampon

Spécifie la quantité maximale de données à mettre en mémoire tampon (par FlowFile) afin d’appliquer les expressions régulières. Les FlowFiles plus grands que le maximum spécifié ne seront pas entièrement évalués.

Longueur maximale du groupe de capture

Spécifie le nombre maximum de caractères qu’une valeur de groupe de capture donnée peut avoir. Tous les caractères au-delà de la limite maximale seront tronqués.

Autoriser les espaces et les commentaires dans les modèles

Dans ce mode, l’espace blanc est ignoré et les commentaires intégrés commençant par # sont ignorés jusqu’à la fin d’une ligne. Peut également être spécifié via l’indicateur intégré (?x).

Relations

Nom

Description

matched

Les FlowFiles sont routés vers cette relation lorsque l’expression régulière est évaluée avec succès et le FlowFile est modifié en conséquence

unmatched

Les FlowFiles sont routés vers cette relation lorsqu’aucune expression régulière fournie ne correspond au contenu du FlowFile