ExtractText 2025.5.31.15¶
Bundle¶
org.apache.nifi | nifi-standard-nar
Description¶
Évalue une ou plusieurs expressions régulières par rapport au contenu d’un FlowFile. Les résultats de ces expressions régulières sont affectés aux attributs FlowFile. Les expressions régulières sont saisies en ajoutant des propriétés définies par l’utilisateur ; le nom de la propriété correspond au nom de l’attribut dans lequel le résultat sera placé. Les attributs sont générés différemment selon que les groupes de capture nommés sont activés ou non. Si les groupes de capture nommés ne sont pas activés, le premier groupe de capture trouvé sera placé dans ce nom d’attribut, mais tous les groupes de capture, y compris la séquence de chaînes correspondante elle-même, seront également fournis dans ce nom d’attribut avec une valeur d’index fournie - à l’exception d’un groupe de capture qui est facultatif et ne correspond pas. Par exemple, étant donné le nom d’attribut « regex » et l’expression « abc(def) ?(g) », nous ajouterions un attribut « regex.1 » avec la valeur « def » si « def » correspondait. Si « def » ne correspond pas, aucun attribut nommé « regex.1 » ne sera ajouté, mais un attribut nommé « regex.2 » présentant la valeur « g » sera ajouté malgré tout. Si les groupes de capture nommés sont activés, chaque groupe de capture nommé, s’il est trouvé, sera placé dans le nom de l’attribut avec le nom fourni. Si cette option est activée, la séquence de chaînes correspondante sera elle-même placée dans le nom de l’attribut. Si les correspondances multiples sont activées, un index sera appliqué après le premier ensemble de correspondances. L’exception est un groupe de capture qui est facultatif et ne correspond pas. Par exemple, étant donné le nom d’attribut « regex » et l’expression « abc(?<NAMED>def)?(?<NAMED-TWO>g) », nous ajouterions un attribut « regex.NAMED » présentant la valeur « def » si « def » correspondait. Nous ajouterions quoi qu’il arrive un attribut « regex.NAMED-TWO » présentant la valeur « g » si « g » correspondait. La valeur de la propriété doit être une expression régulière valide avec un ou plusieurs groupes de capture. Si les groupes de capture nommés sont activés, tous les groupes de capture doivent être nommés. Si ce n’est pas le cas, la configuration du processeur ne sera pas validée. Si l’expression régulière correspond plusieurs fois, seule la première correspondance sera utilisée, à moins que la propriété permettant de répéter le groupe de capture ne soit réglée sur TRUE. Si l’une des expressions régulières fournies correspond, le ou les FlowFiles seront routés vers « matched ». Si aucune expression régulière fournie ne correspond, le FlowFile sera routé vers « unmatched » et aucun attribut ne sera appliqué à ce FlowFile.
Exigences en matière d’entrées¶
REQUIRED
Prend en charge les propriétés dynamiques sensibles¶
false
Propriétés¶
Propriété |
Description |
---|---|
Jeu de caractères |
L’ensemble de caractères dans lequel le fichier est encodé |
Activer l’équivalence canonique |
Indique que deux caractères ne correspondent que si leurs décompositions canoniques complètes correspondent. |
Activer la correspondance insensible à la casse |
Indique que deux caractères correspondent même s’ils sont dans une casse différente. Cette option peut également être spécifiée via le drapeau intégré (?i). |
Activer le mode DOTALL |
Indique que l’expression « . » doit correspondre à n’importe quel caractère, y compris une fin de ligne. Cette option peut également être spécifiée via le drapeau intégré (?s). |
Activer l’analyse littérale du modèle |
Indique que les métacaractères et les caractères d’échappement ne doivent avoir aucune signification particulière. |
Activer le mode multiligne |
Indique que « ^ » et « $ » doivent correspondre juste après et juste avant un terminateur de ligne ou une fin de séquence, au lieu de correspondre uniquement au début ou à la fin de l’entrée entière. Cette option peut également être spécifiée via le drapeau intégré (?m). |
Activer les classes de caractères prédéfinies Unicode |
Indique la conformité avec la norme technique Unicode #18: Unicode Regular Expression Annex C. Compatibility Properties. Cette option peut également être spécifiée via le drapeau intégré (?U). |
Activer le rabattement de casse compatible Unicode |
Lorsque cette option est utilisée avec « Enable Case-insensitive Matching », la correspondance s’effectue conformément à la norme Unicode. Cette option peut également être spécifiée via le drapeau intégré (?u). |
Activer le mode lignes Unix |
Indique que seul le terminateur de ligne « » est reconnu dans le comportement de « . », « ^ » et « $ ». Cette option peut également être spécifiée via le drapeau intégré (?d). |
Activer la prise en charge des groupes nommés |
Si cette option est définie sur TRUE, lorsque des groupes nommés sont présents dans l’expression régulière, le nom de groupe sera utilisé dans le nom de l’attribut au lieu de l’index de groupe. Tous les groupes de capture doivent être nommés. Si le nombre de groupes (sans compter le groupe de capture 0) n’est pas égal au nombre de groupes nommés, la validation échouera. |
Activer la répétition du groupe de capture |
Si la valeur est définie sur TRUE, toutes les chaînes qui correspondent aux groupes de capture seront extraites. Dans le cas contraire, si l’expression régulière correspond plusieurs fois, seule la première correspondance sera extraite. |
Inclure le groupe de capture 0 |
Indique que le groupe de capture 0 doit être inclus en tant qu’attribut. Le groupe de capture 0 représente la totalité de la correspondance de l’expression régulière. Il n’est généralement pas utilisé et peut avoir une longueur considérable. |
Taille maximale de la mémoire tampon |
Spécifie la quantité maximale de données à mettre en mémoire tampon (par FlowFile) afin d’appliquer les expressions régulières. Les FlowFiles plus grands que le maximum spécifié ne seront pas entièrement évalués. |
Longueur maximale du groupe de capture |
Spécifie le nombre maximum de caractères qu’une valeur de groupe de capture donnée peut avoir. Tous les caractères au-delà de la limite maximale seront tronqués. |
Autoriser les espaces et les commentaires dans les modèles |
Dans ce mode, les espaces sont ignorés et les commentaires intégrés commençant par # sont ignorés jusqu’à la fin d’une ligne. Cette option peut également être spécifiée via le drapeau intégré (?x). |
Relations¶
Nom |
Description |
---|---|
matched |
Les FlowFiles sont routés vers cette relation lorsque l’expression régulière est évaluée avec succès et le FlowFile est modifié en conséquence |
unmatched |
Les FlowFiles sont routés vers cette relation lorsqu’aucune expression régulière fournie ne correspond au contenu du FlowFile |