ChunkRecordText 2025.10.9.21¶

Bundle¶

com.snowflake.openflow.runtime | runtime-chunking-nar

Description¶

Découpe le texte en morceaux avec des options de division récursive par délimiteurs et par nombre maximal de caractères. Le texte d’entrée est censé se présenter sous la forme d’un FlowFile orienté enregistrements correspondant au format configuré pour le Record Reader.

Balises¶

chunk, openflow, text

Exigences en matière d’entrées¶

REQUIRED

Prend en charge les propriétés dynamiques sensibles¶

false

Propriétés¶


Propriété	Description
Chunk Count Field Name	Le nom du champ de l’enregistrement dans lequel doit être écrit le nombre total de morceaux créés à partir de l’enregistrement original.
Chunk Delimiters	Spécifie une liste de séquences de caractères séparées par des virgules. Les métacaractères « n », « r » et « » sont automatiquement déséchappés. Les délimiteurs sont appliqués de manière récursive afin de découper le texte en morceaux.
Chunk Index Field Name	Le nom du champ de l’enregistrement dans lequel l’index du morceau doit être écrit.
Chunk Overlap	Le nombre maximal de caractères à inclure dans les morceaux précédents et suivants.
Chunking Strategy	La stratégie de découpage du texte en morceaux. L’option « Recursive Delimiters » permet de découper le texte en morceaux selon l’algorithme de division récursive par caractère. Dans cet algorithme, le texte en entrée est divisé par le premier délimiteur puis fusionné en morceaux ne dépassant pas la valeur « Max Chunk Length ». Toute division dépassant la valeur « Max Chunk Length » est alors divisée de manière récursive à l’aide du délimiteur suivant. L’option « Max Chunk Length » permet de découper le texte en créant des morceaux d’une taille égale à la valeur « Max Chunk Length ».
Langage	Langage à utiliser pour l’analyse des phrases.
Max Chunk Length	Nombre maximal de caractères à inclure dans le morceau de sortie. Un paramètre trop élevé peut entraîner une erreur de mémoire insuffisante.
Record Reader	Le Record Reader à utiliser pour lire le FlowFile.
Record Writer	Le Record Writer à utiliser pour écrire les résultats.
Sentence Similarity Threshold	Seuil permettant de déterminer si deux phrases sont suffisamment similaires pour occuper le même morceau. La valeur « 1.0 » indique que les phrases sont identiques. La valeur « 0.0 » indique que les phrases sont totalement dissemblables.
Text Record Path	Le chemin d’accès à un champ de texte dans l’enregistrement.
Trim Whitespace	Pour supprimer les espaces blancs autour du morceau de texte de sortie.

Relations¶


Nom	Description
original	Le FlowFile d’entrée est routé vers la relation « original ».
success	Les morceaux de texte sont routés vers la relation « success ».

Écrit les attributs¶


Nom	Description
chunk.strategy	Stratégie utilisée pour découper le texte en morceaux. Valeurs possibles : « Max Chunk Length », « Recursive Delimiters », « Sentence » ou « Semantic ».
chunk.semantic.threshold	Seuil permettant de déterminer si deux phrases sont suffisamment similaires pour occuper le même morceau. Cet attribut n’est ajouté que lorsque la stratégie de découpage en morceaux « Semantic » est utilisée.
chunk.language	Le langage utilisé pour l’analyse des phrases. Cet attribut n’est ajouté que lorsque la stratégie de découpage en morceaux « Sentence » ou « Semantic » est utilisée.
chunk.delimiters	Liste, séparée par des virgules, des délimiteurs utilisés pour découper le texte en morceaux. Cet attribut n’est ajouté que lorsque la stratégie de découpage en morceaux « Recursive Delimiters » est utilisée.
chunk.max.chars	Nombre maximal de caractères à inclure dans chaque morceau.