ExtractText 2025.5.31.15

Pacote

org.apache.nifi | nifi-standard-nar

Descrição

Avalia uma ou mais expressões regulares em relação ao conteúdo de um FlowFile. Os resultados dessas expressões regulares são conferidos aos atributos do FlowFile. As expressões regulares são inseridas adicionando propriedades definidas pelo usuário; o nome da propriedade é mapeado para o nome do atributo no qual o resultado será colocado. Os atributos são gerados de forma diferente com base na habilitação de grupos de captura nomeados. Se os grupos de captura nomeados não estiverem habilitados: o primeiro grupo de captura, se houver algum encontrado, será colocado nesse nome de atributo, mas todos os grupos de captura, inclusive a própria sequência de cadeia de caracteres correspondente, também serão fornecidos nesse nome de atributo com um valor de índice fornecido, com exceção de um grupo de captura que seja opcional e sem correspondência – por exemplo, dado o nome de atributo “regex” e a expressão “abc(def)?(g)”, adicionaríamos um atributo “regex.1” com um valor de “def” se “def” correspondesse. Se o “def” não corresponder, nenhum atributo denominado “regex.1” será adicionado, mas um atributo denominado “regex.2” com valor “g” será adicionado independentemente disso: cada grupo de captura nomeado, se encontrado, será colocado no nome dos atributos com o nome fornecido. Se ativado, a própria sequência de cadeia de caracteres correspondente será colocada no nome do atributo. Se várias correspondências estiverem ativadas, o índice será aplicado após o primeiro conjunto de correspondências. A exceção é um grupo de captura que é opcional e não corresponde. Por exemplo, dado o nome do atributo “regex” e a expressão “abc(?<NAMED>def)?(?<NAMED-TWO>g)”, adicionaríamos um atributo “regex.NAMED” com o valor de “def” se “def” correspondesse. Adicionaríamos um atributo “regex.NAMED-TWO” com o valor de “g” se “g” for correspondido, independentemente de outras condições. O valor da propriedade deve ser uma expressão regular válida com um ou mais grupos de captura. Se os grupos de captura nomeados estiverem ativados, todos os grupos de captura deverão ser nomeados. Se não estiverem, a configuração do processador falhará na validação. Se a expressão regular corresponder mais de uma vez, somente a primeira correspondência será usada, a menos que a propriedade que permite a repetição do grupo de captura esteja definida como verdadeira. Se qualquer expressão regular fornecida corresponder, o(s) FlowFileserá(ão) encaminhado(s) para “matched”. Se nenhuma expressão regular fornecida corresponder, o FlowFile será encaminhado para “unmatched” e nenhum atributo será aplicado ao FlowFile.

Tags

Expressão regular, Texto, avaliar, extrair, regex

Requisito de entrada

REQUIRED

Oferece suporte a propriedades dinâmicas confidenciais

falso

Propriedades

Propriedade

Descrição

Conjunto de caracteres

O conjunto de caracteres no qual o arquivo está codificado

Ative a equivalência canônica

Indica que dois caracteres são iguais apenas quando suas decomposições canônicas completas são iguais.

Ative a correspondência sem distinção entre maiúsculas e minúsculas

Indica que dois caracteres coincidem, independentemente da escolha de maiúsculas ou minúsculas. Também pode ser especificado por meio do sinalizador incorporado (?i).

Ative o modo DOTALL

Indica que a expressão “.” deve corresponder a qualquer caractere, inclusive um terminador de linha. Também pode ser especificado por meio do sinalizador incorporado (?s).

Habilite a análise literal do padrão

Indica que os metacaracteres e caracteres de escape não devem receber nenhum significado especial.

Ative o modo multilinha

Indica que “^” e “$” devem corresponder logo após e logo antes de um terminador de linha ou fim de sequência, em vez de apenas o início ou o fim de toda a entrada. Também pode ser especificado por meio do sinalizador incorporado (?m).

Ative as classes de caracteres predefinidos Unicode

Especifica a conformidade com a Norma técnica Unicode nº 18: anexo C de expressões regulares Unicode: propriedades de compatibilidade. Também pode ser especificado por meio do sinalizador incorporado (?U).

Habilite o agrupamento de caixa com reconhecimento de Unicode

Quando usado com “Ativar correspondência sem diferenciação de caixa” (Enable Case-insensitive Matching), faz a correspondência de maneira consistente com o padrão Unicode. Também pode ser especificado por meio do sinalizador incorporado (?u).

Ative o modo de linhas Unix

Indica que somente o terminador de linha “” é reconhecido no comportamento de “.”, “^” e “$”. Também pode ser especificado por meio do sinalizador incorporado (?d).

Habilite o suporte a grupos nomeados

Se definido como verdadeiro, quando grupos nomeados estiverem presentes na expressão regular, o nome do grupo será usado no nome do atributo, em vez do índice do grupo. Todos os grupos de captura devem ser nomeados; se o número de grupos (não incluindo o grupo de captura 0) não for igual ao número de grupos nomeados, a validação falhará.

Ative a repetição do grupo de captura

Se definido como verdadeiro, todas as cadeias de caracteres correspondentes aos grupos de captura serão extraídas. Caso contrário, se a expressão regular corresponder mais de uma vez, somente a primeira correspondência será extraída.

Incluir o grupo de captura 0

Indica que o grupo de captura 0 deve ser incluído como um atributo. O grupo de captura 0 representa a totalidade da correspondência da expressão regular; normalmente não é usado e pode ter um comprimento considerável.

Tamanho máximo do buffer

Especifica a quantidade máxima de dados a serem armazenados em buffer (por FlowFile) para aplicar as expressões regulares. FlowFiles maiores que o máximo especificado não serão totalmente avaliados.

Comprimento máximo do grupo de captura

Especifica o número máximo de caracteres que um determinado valor de grupo de captura pode ter. Todos os caracteres além do máximo serão truncados.

Permitir espaços em branco e comentários no padrão

Nesse modo, os espaços em branco são ignorados e os comentários incorporados que começam com # são ignorados até o final de uma linha. Também pode ser especificado por meio do sinalizador incorporado (?x).

Relações

Nome

Descrição

matched

FlowFiles são encaminhados para essa relação quando a expressão regular é avaliada com êxito e o FlowFile é modificado como resultado

unmatched

FlowFiles são encaminhados para essa relação quando nenhuma expressão regular fornecida corresponde ao conteúdo do FlowFile