ExtractText 2025.5.31.15¶
Pacote¶
org.apache.nifi | nifi-standard-nar
Descrição¶
Avalia uma ou mais expressões regulares em relação ao conteúdo de um FlowFile. Os resultados dessas expressões regulares são conferidos aos atributos do FlowFile. As expressões regulares são inseridas adicionando propriedades definidas pelo usuário; o nome da propriedade é mapeado para o nome do atributo no qual o resultado será colocado. Os atributos são gerados de forma diferente com base na habilitação de grupos de captura nomeados. Se os grupos de captura nomeados não estiverem habilitados: o primeiro grupo de captura, se houver algum encontrado, será colocado nesse nome de atributo, mas todos os grupos de captura, inclusive a própria sequência de cadeia de caracteres correspondente, também serão fornecidos nesse nome de atributo com um valor de índice fornecido, com exceção de um grupo de captura que seja opcional e sem correspondência – por exemplo, dado o nome de atributo “regex” e a expressão “abc(def)?(g)”, adicionaríamos um atributo “regex.1” com um valor de “def” se “def” correspondesse. Se o “def” não corresponder, nenhum atributo denominado “regex.1” será adicionado, mas um atributo denominado “regex.2” com valor “g” será adicionado independentemente disso: cada grupo de captura nomeado, se encontrado, será colocado no nome dos atributos com o nome fornecido. Se ativado, a própria sequência de cadeia de caracteres correspondente será colocada no nome do atributo. Se várias correspondências estiverem ativadas, o índice será aplicado após o primeiro conjunto de correspondências. A exceção é um grupo de captura que é opcional e não corresponde. Por exemplo, dado o nome do atributo “regex” e a expressão “abc(?<NAMED>def)?(?<NAMED-TWO>g)”, adicionaríamos um atributo “regex.NAMED” com o valor de “def” se “def” correspondesse. Adicionaríamos um atributo “regex.NAMED-TWO” com o valor de “g” se “g” for correspondido, independentemente de outras condições. O valor da propriedade deve ser uma expressão regular válida com um ou mais grupos de captura. Se os grupos de captura nomeados estiverem ativados, todos os grupos de captura deverão ser nomeados. Se não estiverem, a configuração do processador falhará na validação. Se a expressão regular corresponder mais de uma vez, somente a primeira correspondência será usada, a menos que a propriedade que permite a repetição do grupo de captura esteja definida como verdadeira. Se qualquer expressão regular fornecida corresponder, o(s) FlowFileserá(ão) encaminhado(s) para “matched”. Se nenhuma expressão regular fornecida corresponder, o FlowFile será encaminhado para “unmatched” e nenhum atributo será aplicado ao FlowFile.
Requisito de entrada¶
REQUIRED
Oferece suporte a propriedades dinâmicas confidenciais¶
falso
Propriedades¶
Propriedade |
Descrição |
---|---|
Conjunto de caracteres |
O conjunto de caracteres no qual o arquivo está codificado |
Ative a equivalência canônica |
Indica que dois caracteres são iguais apenas quando suas decomposições canônicas completas são iguais. |
Ative a correspondência sem distinção entre maiúsculas e minúsculas |
Indica que dois caracteres coincidem, independentemente da escolha de maiúsculas ou minúsculas. Também pode ser especificado por meio do sinalizador incorporado (?i). |
Ative o modo DOTALL |
Indica que a expressão “.” deve corresponder a qualquer caractere, inclusive um terminador de linha. Também pode ser especificado por meio do sinalizador incorporado (?s). |
Habilite a análise literal do padrão |
Indica que os metacaracteres e caracteres de escape não devem receber nenhum significado especial. |
Ative o modo multilinha |
Indica que “^” e “$” devem corresponder logo após e logo antes de um terminador de linha ou fim de sequência, em vez de apenas o início ou o fim de toda a entrada. Também pode ser especificado por meio do sinalizador incorporado (?m). |
Ative as classes de caracteres predefinidos Unicode |
Especifica a conformidade com a Norma técnica Unicode nº 18: anexo C de expressões regulares Unicode: propriedades de compatibilidade. Também pode ser especificado por meio do sinalizador incorporado (?U). |
Habilite o agrupamento de caixa com reconhecimento de Unicode |
Quando usado com “Ativar correspondência sem diferenciação de caixa” (Enable Case-insensitive Matching), faz a correspondência de maneira consistente com o padrão Unicode. Também pode ser especificado por meio do sinalizador incorporado (?u). |
Ative o modo de linhas Unix |
Indica que somente o terminador de linha “” é reconhecido no comportamento de “.”, “^” e “$”. Também pode ser especificado por meio do sinalizador incorporado (?d). |
Habilite o suporte a grupos nomeados |
Se definido como verdadeiro, quando grupos nomeados estiverem presentes na expressão regular, o nome do grupo será usado no nome do atributo, em vez do índice do grupo. Todos os grupos de captura devem ser nomeados; se o número de grupos (não incluindo o grupo de captura 0) não for igual ao número de grupos nomeados, a validação falhará. |
Ative a repetição do grupo de captura |
Se definido como verdadeiro, todas as cadeias de caracteres correspondentes aos grupos de captura serão extraídas. Caso contrário, se a expressão regular corresponder mais de uma vez, somente a primeira correspondência será extraída. |
Incluir o grupo de captura 0 |
Indica que o grupo de captura 0 deve ser incluído como um atributo. O grupo de captura 0 representa a totalidade da correspondência da expressão regular; normalmente não é usado e pode ter um comprimento considerável. |
Tamanho máximo do buffer |
Especifica a quantidade máxima de dados a serem armazenados em buffer (por FlowFile) para aplicar as expressões regulares. FlowFiles maiores que o máximo especificado não serão totalmente avaliados. |
Comprimento máximo do grupo de captura |
Especifica o número máximo de caracteres que um determinado valor de grupo de captura pode ter. Todos os caracteres além do máximo serão truncados. |
Permitir espaços em branco e comentários no padrão |
Nesse modo, os espaços em branco são ignorados e os comentários incorporados que começam com # são ignorados até o final de uma linha. Também pode ser especificado por meio do sinalizador incorporado (?x). |
Relações¶
Nome |
Descrição |
---|---|
matched |
FlowFiles são encaminhados para essa relação quando a expressão regular é avaliada com êxito e o FlowFile é modificado como resultado |
unmatched |
FlowFiles são encaminhados para essa relação quando nenhuma expressão regular fornecida corresponde ao conteúdo do FlowFile |