ChunkRecordText 2025.10.9.21¶

Pacote¶

com.snowflake.openflow.runtime | runtime-chunking-nar

Descrição¶

Divide o texto em partes com opções para divisão recursiva por delimitadores e comprimento máximo de caracteres. Espera-se que o texto de entrada esteja em um FlowFile orientado a registros que corresponda ao formato do Record Reader configurado.

Tags¶

chunk, openflow, text

Requisito de entrada¶

REQUIRED

Oferece suporte a propriedades dinâmicas confidenciais¶

falso

Propriedades¶


Propriedade	Descrição
Nome do campo de contagem de partes	O nome do campo no registro para gravar o número total de partes criadas a partir do registro original.
Delimitadores de partes	Especifica uma lista de sequências de caracteres separada por vírgulas. Os metacaracteres n, r e têm seu escape removido automaticamente. Os delimitadores são aplicados de forma recursiva para dividir o texto em partes.
Nome do campo do índice de partes	O nome do campo no registro para gravar o índice da parte.
Sobreposição de partes	O número máximo de caracteres a serem incluídos nas partes anteriores e subsequentes.
Estratégia de fragmentação	Estratégia para dividir o texto em partes. “Recursive Delimiters” dividirá o texto em partes de acordo com o algoritmo de divisão recursiva por caractere. Nesse algoritmo, o texto de entrada é dividido pelo primeiro delimitador e mesclado novamente em partes que não excedam o “comprimento máximo de parte”. Todas as divisões que excederem o “comprimento máximo de parte” serão divididas recursivamente usando o próximo delimitador. O “Comprimento máximo de parte” fragmentará o texto criando partes com o tamanho de “Comprimento máximo de parte”.
Linguagem	Idioma a ser usado para analisar sentenças.
Comprimento máximo de parte	Número máximo de caracteres a serem incluídos na parte de saída. Definir esse número muito alto pode resultar em um erro de falta de memória.
Record Reader	O Record Reader a ser usado para ler o FlowFile.
Record Writer	O Record Writer a ser usado para gravar os resultados.
Limite de similaridade de sentenças	Limite para determinar se duas frases são semelhantes o suficiente para ocupar a mesma parte. O valor 1,0 indica que as sentenças são idênticas. O valor 0,0 indica que as frases são completamente diferentes.
Caminho do registro de texto	O caminho do registro para um campo de texto no registro.
Remoção de espaço em branco	Remove os espaços em branco ao redor do bloco de texto de saída.

Relações¶


Nome	Descrição
original	O FlowFile de entrada é encaminhado para a relação original.
success	Os blocos de texto são encaminhados para a relação de sucesso.

Grava atributos¶


Nome	Descrição
chunk.strategy	Estratégia usada para dividir o texto em partes. Uma das opções “Max Chunk Length”, “Recursive Delimiters”, “Sentence”, “Semantic”.
chunk.semantic.threshold	Limite para determinar se duas frases são semelhantes o suficiente para ocupar a mesma parte. Esse atributo é adicionado somente quando a estratégia de fragmentação “Semântica” é usada.
chunk.language	Linguagem usada para análise de sentenças. Esse atributo é adicionado somente quando a estratégia de fragmentação “Sentença” ou “Semântica” é usada.
chunk.delimiters	Lista separada por vírgulas de delimitadores usados para dividir o texto. Esse atributo é adicionado somente quando a estratégia de fragmentação “Recursive Delimiters” é usada.
chunk.max.chars	Número máximo de caracteres a serem incluídos em cada bloco.