ChunkRecordText 2025.5.31.15

번들

com.snowflake.openflow.runtime | runtime-chunking-nar

설명

구분 기호 및 최대 문자 길이로 재귀적으로 분할하는 옵션이 있는 청크 텍스트입니다. 입력 텍스트는 구성된 Record Reader 형식과 일치하는 레코드 지향 FlowFile 형식이어야 합니다.

태그

chunk, openflow, text

입력 요구 사항

REQUIRED

민감한 동적 속성 지원

false

속성

속성

설명

Chunk Count Field Name

원본 레코드에서 생성된 총 청크 수를 기록할 레코드의 필드 이름입니다.

Chunk Delimiters

쉼표로 구분된 문자 시퀀스 목록을 지정합니다. 메타 문자 n, r 및 t는 자동으로 이스케이프 해제됩니다. 구분 기호는 텍스트를 청크하기 위해 재귀적으로 적용됩니다.

Chunk Index Field Name

청크 인덱스를 작성할 레코드의 필드 이름입니다.

Chunk Overlap

이전 및 이후 청크에서 포함할 최대 문자 수입니다.

Chunking Strategy

텍스트를 청크하는 전략. ‘Recursive Delimiters’는 문자별 재귀 분할 알고리즘에 따라 텍스트를 청크합니다. 이 알고리즘에서는 입력된 텍스트가 첫 번째 구분 기호로 분할된 후 ‘Max Chunk Length’를 초과하지 않는 청크로 다시 병합됩니다. ‘Max Chunk Length’를 초과하는 분할은 다음 구분 기호를 사용하여 재귀적으로 분할됩니다. ‘Max Chunk Length’는 ‘Max Chunk Length’ 크기의 청크를 생성하여 텍스트를 청크화합니다.

언어

문장 구문 분석에 사용할 언어.

Max Chunk Length

출력 청크에 포함할 최대 문자 수입니다. 이 숫자를 너무 높게 설정하면 메모리 부족 오류가 발생할 수 있습니다.

Record Reader

FlowFile 을 읽는 데 사용할 Record Reader입니다.

Record Writer

결과 작성에 사용할 Record Writer입니다.

Sentence Similarity Threshold

두 문장이 같은 청크를 차지할 만큼 유사한지 판단하기 위한 임계값입니다. 값이 1.0이면 문장이 동일함을 나타냅니다. 값이 0.0이면 두 문장이 완전히 다름을 나타냅니다.

Text Record Path

레코드의 텍스트 필드에 대한 레코드 경로입니다.

Trim Whitespace

출력 텍스트 청크를 둘러싼 공백을 다듬습니다.

관계

이름

설명

원본

입력된 Flow File은 원래 관계로 라우팅됩니다.

성공

텍스트 청크는 성공 관계로 라우팅됩니다.

Writes 특성

이름

설명

chunk.strategy

텍스트를 청크하는 데 사용되는 전략입니다. ‘Max Chunk Length’, ‘Recursive Delimiters’, ‘Sentence’, ‘Semantic’ 중 하나.

chunk.semantic.threshold

두 문장이 같은 청크를 차지할 만큼 유사한지 판단하기 위한 임계값입니다. 이 특성은 ‘Semantic’ 청크 전략이 사용되는 경우에만 추가됩니다.

chunk.language

문장 구문 분석에 사용되는 언어입니다. 이 특성은 ‘Sentence’ 또는 ‘Semantic’ 청크 전략이 사용되는 경우에만 추가됩니다.

chunk.delimiters

텍스트를 청크하는 데 사용되는 쉼표로 구분된 기호 목록입니다. 이 특성은 ‘Recursive Delimiters’ 청크 전략이 사용되는 경우에만 추가됩니다.

chunk.max.chars

각 청크에 포함할 수 있는 최대 문자 수입니다.