ChunkRecordText 2025.5.31.15¶
Pacote¶
com.snowflake.openflow.runtime | runtime-chunking-nar
Descrição¶
Divide o texto em partes com opções para divisão recursiva por delimitadores e comprimento máximo de caracteres. Espera-se que o texto de entrada esteja em um FlowFile orientado a registros que corresponda ao formato do Record Reader configurado.
Requisito de entrada¶
REQUIRED
Oferece suporte a propriedades dinâmicas confidenciais¶
falso
Propriedades¶
Propriedade |
Descrição |
---|---|
Nome do campo de contagem de partes |
O nome do campo no registro para gravar o número total de partes criadas a partir do registro original. |
Delimitadores de partes |
Especifica uma lista de sequências de caracteres separada por vírgulas. Os metacaracteres n, r e t têm seu escape removido automaticamente. Os delimitadores são aplicados de forma recursiva para dividir o texto em partes. |
Nome do campo do índice de partes |
O nome do campo no registro para gravar o índice da parte. |
Sobreposição de partes |
O número máximo de caracteres a serem incluídos nas partes anteriores e subsequentes. |
Estratégia de fragmentação |
Estratégia para dividir o texto em partes. “Recursive Delimiters” dividirá o texto em partes de acordo com o algoritmo de divisão recursiva por caractere. Nesse algoritmo, o texto de entrada é dividido pelo primeiro delimitador e mesclado novamente em partes que não excedam o “comprimento máximo de parte”. Todas as divisões que excederem o “comprimento máximo de parte” serão divididas recursivamente usando o próximo delimitador. O “Comprimento máximo de parte” fragmentará o texto criando partes com o tamanho de “Comprimento máximo de parte”. |
Linguagem |
Idioma a ser usado para analisar sentenças. |
Comprimento máximo de parte |
Número máximo de caracteres a serem incluídos na parte de saída. Definir esse número muito alto pode resultar em um erro de falta de memória. |
Record Reader |
O Record Reader a ser usado para ler o FlowFile. |
Record Writer |
O Record Writer a ser usado para gravar os resultados. |
Limite de similaridade de sentenças |
Limite para determinar se duas frases são semelhantes o suficiente para ocupar a mesma parte. O valor 1,0 indica que as sentenças são idênticas. O valor 0,0 indica que as frases são completamente diferentes. |
Caminho do registro de texto |
O caminho do registro para um campo de texto no registro. |
Remoção de espaço em branco |
Remove os espaços em branco ao redor do bloco de texto de saída. |
Relações¶
Nome |
Descrição |
---|---|
original |
O FlowFile de entrada é encaminhado para a relação original. |
success |
Os blocos de texto são encaminhados para a relação de sucesso. |
Grava atributos¶
Nome |
Descrição |
---|---|
chunk.strategy |
Estratégia usada para dividir o texto em partes. Uma das opções “Max Chunk Length”, “Recursive Delimiters”, “Sentence”, “Semantic”. |
chunk.semantic.threshold |
Limite para determinar se duas frases são semelhantes o suficiente para ocupar a mesma parte. Esse atributo é adicionado somente quando a estratégia de fragmentação “Semântica” é usada. |
chunk.language |
Linguagem usada para análise de sentenças. Esse atributo é adicionado somente quando a estratégia de fragmentação “Sentença” ou “Semântica” é usada. |
chunk.delimiters |
Lista separada por vírgulas de delimitadores usados para dividir o texto. Esse atributo é adicionado somente quando a estratégia de fragmentação “Recursive Delimiters” é usada. |
chunk.max.chars |
Número máximo de caracteres a serem incluídos em cada bloco. |