ExtractText 2025.10.2.19¶
Pacote¶
org.apache.nifi | nifi-standard-nar
Descrição¶
Avalia uma ou mais expressões regulares em relação ao conteúdo de um FlowFile. Os resultados dessas expressões regulares são atribuídos a atributos do FlowFile. Expressões regulares são inseridas adicionando propriedades definidas pelo usuário; o nome da propriedade é mapeado para o nome do atributo no qual o resultado será colocado. Os atributos são gerados de forma diferente com base na ativação de grupos de captura nomeados. Se os grupos de captura nomeados não estiverem habilitados: O primeiro grupo de captura, se for encontrado, será colocado no nome desse atributo. Mas todos os grupos de captura, incluindo a própria sequência de caracteres correspondente, também serão fornecidos nesse nome de atributo com um valor de índice fornecido, com exceção de um grupo de captura que seja opcional e não corresponda, por exemplo, dado o nome de atributo “regex” e a expressão “abc(def)?(g)”, adicionaríamos um atributo “regex.1” com um valor de “def” se “def” correspondesse. Se o “def” não correspondesse, nenhum atributo nomeado “regex.1” seria adicionado, mas um atributo nomeado “regex.2” com um valor de “g” será adicionado independentemente. Se os grupos de captura nomeados estiverem habilitados: cada grupo de captura nomeado, se encontrado, será colocado no nome dos atributos com o nome fornecido. Se habilitada, a própria sequência de strings correspondente será colocada no nome do atributo. Se várias correspondências estiverem habilitadas, o índice será aplicado após o primeiro conjunto de correspondências. A exceção é um grupo de captura que é opcional e não corresponde. Por exemplo, dado o nome do atributo “regex” e a expressão “abc(?<<NAMED>>def)?(?<<NAMED-TWO>>g)”, adicionaríamos um atributo “regex. NAMED” com o valor de “def” se “def” correspondesse. Adicionaríamos um atributo “regex. NAMED-TWO” com o valor de “g” se “g” correspondesse independentemente. O valor da propriedade deve ser uma expressão regular válida com um ou mais grupos de captura. Se os grupos de captura nomeados estiverem habilitados, todos os grupos de captura devem ser nomeados. Caso contrário, a configuração do processador falhará na validação. Se a expressão regular corresponder mais de uma vez, apenas a primeira correspondência será usada, a menos que a propriedade que habilita o grupo de captura repetida esteja definida como verdadeira. Se qualquer expressão regular fornecida corresponder, os FlowFiles serão encaminhados para “correspondentes”. Se nenhuma expressão regular fornecida corresponder, o FlowFile será encaminhado para “não correspondentes” e nenhum atributo será aplicado ao FlowFile.
Requisito de entrada¶
REQUIRED
Oferece suporte a propriedades dinâmicas confidenciais¶
falso
Propriedades¶
Propriedade |
Descrição |
|---|---|
Conjunto de caracteres |
O conjunto de caracteres no qual o arquivo está codificado |
Ative a equivalência canônica |
Indica que dois caracteres são iguais apenas quando suas decomposições canônicas completas são iguais. |
Ative a correspondência sem distinção entre maiúsculas e minúsculas |
Indica que dois caracteres correspondem mesmo que estejam em um caso diferente. Também pode ser especificado por meio do sinalizador incorporado (?i). |
Ative o modo DOTALL |
Indica que a expressão “.” deve corresponder a qualquer caractere, incluindo um terminador de linha. Também pode ser especificado pelo sinalizador embutido (?s). |
Habilite a análise literal do padrão |
Indica que os metacaracteres e caracteres de escape não devem receber nenhum significado especial. |
Ative o modo multilinha |
Indica que ‘^’ e ‘$’ devem corresponder logo após e logo antes de um terminador de linha ou fim de sequência, em vez de apenas no início ou no final de toda a entrada. Também pode ser especificado pelo sinalizador incorporado (?m). |
Ative as classes de caracteres predefinidos Unicode |
Especifica a conformidade com o Padrão da tecnologia Unicode No. 18: Expressão regular Unicode, Anexo C: Propriedades de compatibilidade. Também pode ser especificado pelo sinalizador incorporado (?U). |
Habilite o agrupamento de caixa com reconhecimento de Unicode |
Quando usado com “Habilitar correspondência que não diferencia maiúsculas de minúsculas”, corresponde de maneira consistente com o padrão Unicode. Também pode ser especificado pelo sinalizador incorporado (?u). |
Ative o modo de linhas Unix |
Indica que apenas o “terminador de linha é reconhecido no comportamento de “. ”, “^ ” e “$”. Também pode ser especificado pelo sinalizador incorporado (?d). |
Habilite o suporte a grupos nomeados |
Se definido como verdadeiro, quando grupos nomeados estiverem presentes na expressão regular, o nome do grupo será usado no nome do atributo e não no índice do grupo. Todos os grupos de captura devem ser nomeados, se o número de grupos (não incluindo o grupo de captura 0) não for igual ao número de grupos nomeados, a validação falhará. |
Ative a repetição do grupo de captura |
Se definido como verdadeiro, todas as cadeias de caracteres correspondentes aos grupos de captura serão extraídas. Caso contrário, se a expressão regular corresponder mais de uma vez, somente a primeira correspondência será extraída. |
Incluir o grupo de captura 0 |
Indica que o grupo de captura 0 deve ser incluído como um atributo. O grupo de captura 0 representa a totalidade da correspondência da expressão regular; normalmente não é usado e pode ter um comprimento considerável. |
Tamanho máximo do buffer |
Especifica a quantidade máxima de dados a serem armazenados em buffer (por FlowFile) para aplicar as expressões regulares. FlowFiles maiores que o máximo especificado não serão totalmente avaliados. |
Comprimento máximo do grupo de captura |
Especifica o número máximo de caracteres que um determinado valor de grupo de captura pode ter. Todos os caracteres além do máximo serão truncados. |
Permitir espaços em branco e comentários no padrão |
Neste modo, o espaço em branco é ignorado e os comentários incorporados que começam com # são ignorados até o final de uma linha. Também pode ser especificado através do sinalizador incorporado (?x). |
Relações¶
Nome |
Descrição |
|---|---|
matched |
FlowFiles são encaminhados para essa relação quando a expressão regular é avaliada com êxito e o FlowFile é modificado como resultado |
unmatched |
FlowFiles são encaminhados para essa relação quando nenhuma expressão regular fornecida corresponde ao conteúdo do FlowFile |