SplitText 2025.5.31.15

Pacote

org.apache.nifi | nifi-standard-nar

Descrição

Divide um arquivo de texto em vários arquivos de texto menores em limites de linha limitados pelo número máximo de linhas ou pelo tamanho total do fragmento. Cada arquivo de saída dividido não conterá mais do que o número configurado de linhas ou bytes. Se tanto Contagem de linhas por divisão (Line Split Count) quanto Tamanho máximo do fragmento (Maximum Fragment Size) forem especificados, a divisão ocorrerá até atingir o primeiro desses limites. Se a primeira linha de um fragmento exceder o tamanho máximo do fragmento, essa linha será gerada em um único arquivo dividido que excede o limite máximo de tamanho configurado. Esse componente também permite especificar que cada divisão deve incluir linhas de cabeçalho. As linhas de cabeçalho podem ser computadas especificando a quantidade de linhas que devem constituir um cabeçalho ou usando o marcador de cabeçalho para fazer a correspondência com as linhas lidas. Se essa correspondência ocorrer, a linha correspondente será tratada como cabeçalho. Lembre-se de que, após a primeira falha na correspondência do marcador de cabeçalho, nenhuma outra correspondência será realizada e o restante dos dados será analisado como linhas regulares para uma determinada divisão. Se, após o cálculo do cabeçalho, não houver mais dados, a divisão resultante consistirá apenas em linhas de cabeçalho.

Tags

split, text

Requisito de entrada

REQUIRED

Oferece suporte a propriedades dinâmicas confidenciais

falso

Propriedades

Propriedade

Descrição

Contagem de linhas do cabeçalho

O número de linhas que devem ser consideradas parte do cabeçalho; as linhas do cabeçalho serão duplicadas em todos os arquivos divididos

Caracteres do marcador de linha de cabeçalho

O(s) primeiro(s) caractere(s) na linha do arquivo de dados que significa(m) uma linha de cabeçalho. Esse valor é ignorado quando o Contagem de linhas do cabeçalho é diferente de zero. A primeira linha que não contém os caracteres de marcação de linha de cabeçalho e todas as linhas subsequentes são consideradas sem cabeçalho

Contagem de divisão de linhas

O número de linhas que serão adicionadas a cada arquivo dividido, excluindo as linhas de cabeçalho. Um valor zero exige que Tamanho máximo do fragmento seja definido, e a contagem de linhas não será considerada na determinação das divisões.

Tamanho máximo do fragmento

O tamanho máximo de cada arquivo dividido, incluindo as linhas de cabeçalho. Observação: no caso de uma única linha exceder essa propriedade (incluindo cabeçalhos, se aplicável), essa linha será emitida em uma divisão própria que exceda essa configuração de Tamanho máximo de fragmento.

Remover novas linhas finais

Se você deve remover as novas linhas no fim de cada arquivo dividido. Isso deve ser falso se você pretende mesclar os arquivos divididos posteriormente. Se essa opção for definida como “true” e for gerado um FlowFile que contenha apenas “linhas vazias” (ou seja, que consista apenas em caracteres r e n), o FlowFile não será emitido. Observe, no entanto, que se as linhas de cabeçalho forem especificadas, o FlowFile resultante nunca estará vazio, pois consistirá nas linhas de cabeçalho; portanto, um FlowFile pode ser emitido contendo apenas as linhas de cabeçalho.

Relações

Nome

Descrição

failure

Se um arquivo não puder ser dividido por algum motivo, o arquivo original será encaminhado para esse destino e nada será encaminhado para outro lugar

original

O arquivo de entrada original será encaminhado para esse destino quando tiver sido dividido com êxito em um ou mais arquivos

splits

Os arquivos divididos serão encaminhados para esse destino quando um arquivo de entrada for dividido com êxito em um ou mais arquivos divididos

Grava atributos

Nome

Descrição

text.line.count

O número de linhas de texto do FlowFile original que foram copiadas para este FlowFile

fragment.size

O número de bytes do FlowFile original que foram copiados para este FlowFile, incluindo o cabeçalho, se aplicável, que é duplicado em cada FlowFile dividido

fragment.identifier

Todas os FlowFiles divididos produzidos a partir do mesmo FlowFile pai terão o mesmo UUID gerado aleatoriamente adicionado a esse atributo

fragment.index

Um número incremental que indica a ordem dos FlowFiles divididos que foi criada a partir de um único FlowFile pai

fragment.count

O número de FlowFiles divididos gerados a partir do FlowFile pai

segment.original.filename

O nome de arquivo do FlowFile pai

Consulte também