ChunkRecordText 2025.5.31.15¶
번들¶
com.snowflake.openflow.runtime | runtime-chunking-nar
설명¶
구분 기호 및 최대 문자 길이로 재귀적으로 분할하는 옵션이 있는 청크 텍스트입니다. 입력 텍스트는 구성된 Record Reader 형식과 일치하는 레코드 지향 FlowFile 형식이어야 합니다.
입력 요구 사항¶
REQUIRED
민감한 동적 속성 지원¶
false
속성¶
속성 |
설명 |
---|---|
Chunk Count Field Name |
원본 레코드에서 생성된 총 청크 수를 기록할 레코드의 필드 이름입니다. |
Chunk Delimiters |
쉼표로 구분된 문자 시퀀스 목록을 지정합니다. 메타 문자 n, r 및 t는 자동으로 이스케이프 해제됩니다. 구분 기호는 텍스트를 청크하기 위해 재귀적으로 적용됩니다. |
Chunk Index Field Name |
청크 인덱스를 작성할 레코드의 필드 이름입니다. |
Chunk Overlap |
이전 및 이후 청크에서 포함할 최대 문자 수입니다. |
Chunking Strategy |
텍스트를 청크하는 전략. ‘Recursive Delimiters’는 문자별 재귀 분할 알고리즘에 따라 텍스트를 청크합니다. 이 알고리즘에서는 입력된 텍스트가 첫 번째 구분 기호로 분할된 후 ‘Max Chunk Length’를 초과하지 않는 청크로 다시 병합됩니다. ‘Max Chunk Length’를 초과하는 분할은 다음 구분 기호를 사용하여 재귀적으로 분할됩니다. ‘Max Chunk Length’는 ‘Max Chunk Length’ 크기의 청크를 생성하여 텍스트를 청크화합니다. |
언어 |
문장 구문 분석에 사용할 언어. |
Max Chunk Length |
출력 청크에 포함할 최대 문자 수입니다. 이 숫자를 너무 높게 설정하면 메모리 부족 오류가 발생할 수 있습니다. |
Record Reader |
FlowFile 을 읽는 데 사용할 Record Reader입니다. |
Record Writer |
결과 작성에 사용할 Record Writer입니다. |
Sentence Similarity Threshold |
두 문장이 같은 청크를 차지할 만큼 유사한지 판단하기 위한 임계값입니다. 값이 1.0이면 문장이 동일함을 나타냅니다. 값이 0.0이면 두 문장이 완전히 다름을 나타냅니다. |
Text Record Path |
레코드의 텍스트 필드에 대한 레코드 경로입니다. |
Trim Whitespace |
출력 텍스트 청크를 둘러싼 공백을 다듬습니다. |
관계¶
이름 |
설명 |
---|---|
원본 |
입력된 Flow File은 원래 관계로 라우팅됩니다. |
성공 |
텍스트 청크는 성공 관계로 라우팅됩니다. |
Writes 특성¶
이름 |
설명 |
---|---|
chunk.strategy |
텍스트를 청크하는 데 사용되는 전략입니다. ‘Max Chunk Length’, ‘Recursive Delimiters’, ‘Sentence’, ‘Semantic’ 중 하나. |
chunk.semantic.threshold |
두 문장이 같은 청크를 차지할 만큼 유사한지 판단하기 위한 임계값입니다. 이 특성은 ‘Semantic’ 청크 전략이 사용되는 경우에만 추가됩니다. |
chunk.language |
문장 구문 분석에 사용되는 언어입니다. 이 특성은 ‘Sentence’ 또는 ‘Semantic’ 청크 전략이 사용되는 경우에만 추가됩니다. |
chunk.delimiters |
텍스트를 청크하는 데 사용되는 쉼표로 구분된 기호 목록입니다. 이 특성은 ‘Recursive Delimiters’ 청크 전략이 사용되는 경우에만 추가됩니다. |
chunk.max.chars |
각 청크에 포함할 수 있는 최대 문자 수입니다. |