ChunkRecordText 2025.5.31.15¶
Bundle¶
com.snowflake.openflow.runtime | runtime-chunking-nar
Description¶
Découpe le texte en morceaux avec des options de division récursive par délimiteurs et par nombre maximal de caractères. Le texte d’entrée est censé se présenter sous la forme d’un FlowFile orienté enregistrements correspondant au format configuré pour le Record Reader.
Exigences en matière d’entrées¶
REQUIRED
Prend en charge les propriétés dynamiques sensibles¶
false
Propriétés¶
Propriété |
Description |
---|---|
Chunk Count Field Name |
Le nom du champ de l’enregistrement dans lequel doit être écrit le nombre total de morceaux créés à partir de l’enregistrement original. |
Chunk Delimiters |
Spécifie une liste de séquences de caractères séparées par des virgules. Les métacaractères « n », « r » et « t » sont automatiquement déséchappés. Les délimiteurs sont appliqués de manière récursive afin de découper le texte en morceaux. |
Chunk Index Field Name |
Le nom du champ de l’enregistrement dans lequel l’index du morceau doit être écrit. |
Chunk Overlap |
Le nombre maximal de caractères à inclure dans les morceaux précédents et suivants. |
Chunking Strategy |
La stratégie de découpage du texte en morceaux. L’option « Recursive Delimiters » permet de découper le texte en morceaux selon l’algorithme de division récursive par caractère. Dans cet algorithme, le texte en entrée est divisé par le premier délimiteur puis fusionné en morceaux ne dépassant pas la valeur « Max Chunk Length ». Toute division dépassant la valeur « Max Chunk Length » est alors divisée de manière récursive à l’aide du délimiteur suivant. L’option « Max Chunk Length » permet de découper le texte en créant des morceaux d’une taille égale à la valeur « Max Chunk Length ». |
Langage |
Langage à utiliser pour l’analyse des phrases. |
Max Chunk Length |
Nombre maximal de caractères à inclure dans le morceau de sortie. Un paramètre trop élevé peut entraîner une erreur de mémoire insuffisante. |
Record Reader |
Le Record Reader à utiliser pour lire le FlowFile. |
Record Writer |
Le Record Writer à utiliser pour écrire les résultats. |
Sentence Similarity Threshold |
Seuil permettant de déterminer si deux phrases sont suffisamment similaires pour occuper le même morceau. La valeur « 1.0 » indique que les phrases sont identiques. La valeur « 0.0 » indique que les phrases sont totalement dissemblables. |
Text Record Path |
Le chemin d’accès à un champ de texte dans l’enregistrement. |
Trim Whitespace |
Pour supprimer les espaces blancs autour du morceau de texte de sortie. |
Relations¶
Nom |
Description |
---|---|
original |
Le FlowFile d’entrée est routé vers la relation « original ». |
success |
Les morceaux de texte sont routés vers la relation « success ». |
Écrit les attributs¶
Nom |
Description |
---|---|
chunk.strategy |
Stratégie utilisée pour découper le texte en morceaux. Valeurs possibles : « Max Chunk Length », « Recursive Delimiters », « Sentence » ou « Semantic ». |
chunk.semantic.threshold |
Seuil permettant de déterminer si deux phrases sont suffisamment similaires pour occuper le même morceau. Cet attribut n’est ajouté que lorsque la stratégie de découpage en morceaux « Semantic » est utilisée. |
chunk.language |
Le langage utilisé pour l’analyse des phrases. Cet attribut n’est ajouté que lorsque la stratégie de découpage en morceaux « Sentence » ou « Semantic » est utilisée. |
chunk.delimiters |
Liste, séparée par des virgules, des délimiteurs utilisés pour découper le texte en morceaux. Cet attribut n’est ajouté que lorsque la stratégie de découpage en morceaux « Recursive Delimiters » est utilisée. |
chunk.max.chars |
Nombre maximal de caractères à inclure dans chaque morceau. |