ChunkRecordText 2025.5.31.15

Pacote

com.snowflake.openflow.runtime | runtime-chunking-nar

Descrição

Divide o texto em partes com opções para divisão recursiva por delimitadores e comprimento máximo de caracteres. Espera-se que o texto de entrada esteja em um FlowFile orientado a registros que corresponda ao formato do Record Reader configurado.

Tags

chunk, openflow, text

Requisito de entrada

REQUIRED

Oferece suporte a propriedades dinâmicas confidenciais

falso

Propriedades

Propriedade

Descrição

Nome do campo de contagem de partes

O nome do campo no registro para gravar o número total de partes criadas a partir do registro original.

Delimitadores de partes

Especifica uma lista de sequências de caracteres separada por vírgulas. Os metacaracteres n, r e t têm seu escape removido automaticamente. Os delimitadores são aplicados de forma recursiva para dividir o texto em partes.

Nome do campo do índice de partes

O nome do campo no registro para gravar o índice da parte.

Sobreposição de partes

O número máximo de caracteres a serem incluídos nas partes anteriores e subsequentes.

Estratégia de fragmentação

Estratégia para dividir o texto em partes. “Recursive Delimiters” dividirá o texto em partes de acordo com o algoritmo de divisão recursiva por caractere. Nesse algoritmo, o texto de entrada é dividido pelo primeiro delimitador e mesclado novamente em partes que não excedam o “comprimento máximo de parte”. Todas as divisões que excederem o “comprimento máximo de parte” serão divididas recursivamente usando o próximo delimitador. O “Comprimento máximo de parte” fragmentará o texto criando partes com o tamanho de “Comprimento máximo de parte”.

Linguagem

Idioma a ser usado para analisar sentenças.

Comprimento máximo de parte

Número máximo de caracteres a serem incluídos na parte de saída. Definir esse número muito alto pode resultar em um erro de falta de memória.

Record Reader

O Record Reader a ser usado para ler o FlowFile.

Record Writer

O Record Writer a ser usado para gravar os resultados.

Limite de similaridade de sentenças

Limite para determinar se duas frases são semelhantes o suficiente para ocupar a mesma parte. O valor 1,0 indica que as sentenças são idênticas. O valor 0,0 indica que as frases são completamente diferentes.

Caminho do registro de texto

O caminho do registro para um campo de texto no registro.

Remoção de espaço em branco

Remove os espaços em branco ao redor do bloco de texto de saída.

Relações

Nome

Descrição

original

O FlowFile de entrada é encaminhado para a relação original.

success

Os blocos de texto são encaminhados para a relação de sucesso.

Grava atributos

Nome

Descrição

chunk.strategy

Estratégia usada para dividir o texto em partes. Uma das opções “Max Chunk Length”, “Recursive Delimiters”, “Sentence”, “Semantic”.

chunk.semantic.threshold

Limite para determinar se duas frases são semelhantes o suficiente para ocupar a mesma parte. Esse atributo é adicionado somente quando a estratégia de fragmentação “Semântica” é usada.

chunk.language

Linguagem usada para análise de sentenças. Esse atributo é adicionado somente quando a estratégia de fragmentação “Sentença” ou “Semântica” é usada.

chunk.delimiters

Lista separada por vírgulas de delimitadores usados para dividir o texto. Esse atributo é adicionado somente quando a estratégia de fragmentação “Recursive Delimiters” é usada.

chunk.max.chars

Número máximo de caracteres a serem incluídos em cada bloco.