ExtractText 2025.5.31.15

Bundle

org.apache.nifi | nifi-standard-nar

Description

Évalue une ou plusieurs expressions régulières par rapport au contenu d’un FlowFile. Les résultats de ces expressions régulières sont affectés aux attributs FlowFile. Les expressions régulières sont saisies en ajoutant des propriétés définies par l’utilisateur ; le nom de la propriété correspond au nom de l’attribut dans lequel le résultat sera placé. Les attributs sont générés différemment selon que les groupes de capture nommés sont activés ou non. Si les groupes de capture nommés ne sont pas activés, le premier groupe de capture trouvé sera placé dans ce nom d’attribut, mais tous les groupes de capture, y compris la séquence de chaînes correspondante elle-même, seront également fournis dans ce nom d’attribut avec une valeur d’index fournie - à l’exception d’un groupe de capture qui est facultatif et ne correspond pas. Par exemple, étant donné le nom d’attribut « regex » et l’expression « abc(def) ?(g) », nous ajouterions un attribut « regex.1 » avec la valeur « def » si « def » correspondait. Si « def » ne correspond pas, aucun attribut nommé « regex.1 » ne sera ajouté, mais un attribut nommé « regex.2 » présentant la valeur « g » sera ajouté malgré tout. Si les groupes de capture nommés sont activés, chaque groupe de capture nommé, s’il est trouvé, sera placé dans le nom de l’attribut avec le nom fourni. Si cette option est activée, la séquence de chaînes correspondante sera elle-même placée dans le nom de l’attribut. Si les correspondances multiples sont activées, un index sera appliqué après le premier ensemble de correspondances. L’exception est un groupe de capture qui est facultatif et ne correspond pas. Par exemple, étant donné le nom d’attribut « regex » et l’expression « abc(?<NAMED>def)?(?<NAMED-TWO>g) », nous ajouterions un attribut « regex.NAMED » présentant la valeur « def » si « def » correspondait. Nous ajouterions quoi qu’il arrive un attribut « regex.NAMED-TWO » présentant la valeur « g » si « g » correspondait. La valeur de la propriété doit être une expression régulière valide avec un ou plusieurs groupes de capture. Si les groupes de capture nommés sont activés, tous les groupes de capture doivent être nommés. Si ce n’est pas le cas, la configuration du processeur ne sera pas validée. Si l’expression régulière correspond plusieurs fois, seule la première correspondance sera utilisée, à moins que la propriété permettant de répéter le groupe de capture ne soit réglée sur TRUE. Si l’une des expressions régulières fournies correspond, le ou les FlowFiles seront routés vers « matched ». Si aucune expression régulière fournie ne correspond, le FlowFile sera routé vers « unmatched » et aucun attribut ne sera appliqué à ce FlowFile.

Balises

expression régulière, texte, évaluer, extraire, regex

Exigences en matière d’entrées

REQUIRED

Prend en charge les propriétés dynamiques sensibles

false

Propriétés

Propriété

Description

Jeu de caractères

L’ensemble de caractères dans lequel le fichier est encodé

Activer l’équivalence canonique

Indique que deux caractères ne correspondent que si leurs décompositions canoniques complètes correspondent.

Activer la correspondance insensible à la casse

Indique que deux caractères correspondent même s’ils sont dans une casse différente. Cette option peut également être spécifiée via le drapeau intégré (?i).

Activer le mode DOTALL

Indique que l’expression « . » doit correspondre à n’importe quel caractère, y compris une fin de ligne. Cette option peut également être spécifiée via le drapeau intégré (?s).

Activer l’analyse littérale du modèle

Indique que les métacaractères et les caractères d’échappement ne doivent avoir aucune signification particulière.

Activer le mode multiligne

Indique que « ^ » et « $ » doivent correspondre juste après et juste avant un terminateur de ligne ou une fin de séquence, au lieu de correspondre uniquement au début ou à la fin de l’entrée entière. Cette option peut également être spécifiée via le drapeau intégré (?m).

Activer les classes de caractères prédéfinies Unicode

Indique la conformité avec la norme technique Unicode #18: Unicode Regular Expression Annex C. Compatibility Properties. Cette option peut également être spécifiée via le drapeau intégré (?U).

Activer le rabattement de casse compatible Unicode

Lorsque cette option est utilisée avec « Enable Case-insensitive Matching », la correspondance s’effectue conformément à la norme Unicode. Cette option peut également être spécifiée via le drapeau intégré (?u).

Activer le mode lignes Unix

Indique que seul le terminateur de ligne «  » est reconnu dans le comportement de « . », « ^ » et « $ ». Cette option peut également être spécifiée via le drapeau intégré (?d).

Activer la prise en charge des groupes nommés

Si cette option est définie sur TRUE, lorsque des groupes nommés sont présents dans l’expression régulière, le nom de groupe sera utilisé dans le nom de l’attribut au lieu de l’index de groupe. Tous les groupes de capture doivent être nommés. Si le nombre de groupes (sans compter le groupe de capture 0) n’est pas égal au nombre de groupes nommés, la validation échouera.

Activer la répétition du groupe de capture

Si la valeur est définie sur TRUE, toutes les chaînes qui correspondent aux groupes de capture seront extraites. Dans le cas contraire, si l’expression régulière correspond plusieurs fois, seule la première correspondance sera extraite.

Inclure le groupe de capture 0

Indique que le groupe de capture 0 doit être inclus en tant qu’attribut. Le groupe de capture 0 représente la totalité de la correspondance de l’expression régulière. Il n’est généralement pas utilisé et peut avoir une longueur considérable.

Taille maximale de la mémoire tampon

Spécifie la quantité maximale de données à mettre en mémoire tampon (par FlowFile) afin d’appliquer les expressions régulières. Les FlowFiles plus grands que le maximum spécifié ne seront pas entièrement évalués.

Longueur maximale du groupe de capture

Spécifie le nombre maximum de caractères qu’une valeur de groupe de capture donnée peut avoir. Tous les caractères au-delà de la limite maximale seront tronqués.

Autoriser les espaces et les commentaires dans les modèles

Dans ce mode, les espaces sont ignorés et les commentaires intégrés commençant par # sont ignorés jusqu’à la fin d’une ligne. Cette option peut également être spécifiée via le drapeau intégré (?x).

Relations

Nom

Description

matched

Les FlowFiles sont routés vers cette relation lorsque l’expression régulière est évaluée avec succès et le FlowFile est modifié en conséquence

unmatched

Les FlowFiles sont routés vers cette relation lorsqu’aucune expression régulière fournie ne correspond au contenu du FlowFile