SplitText 2025.5.31.15

번들

org.apache.nifi | nifi-standard-nar

설명

최대 줄 수 또는 조각의 총 크기로 제한되는 줄 경계에서 텍스트 파일을 여러 개의 작은 텍스트 파일로 분할합니다. 각 출력 분할 파일은 구성된 라인 수 또는 바이트 수 이하로만 포함됩니다. 라인 분할 횟수와 최대 조각 크기를 모두 지정한 경우, 먼저 도달하는 제한에 따라 분할이 수행됩니다. 조각의 첫 라인이 최대 조각 크기를 초과하는 경우, 해당 라인은 구성된 최대 크기 제한을 초과하는 단일 분할 파일로 출력됩니다. 이 구성 요소를 사용하면 각 분할에 헤더 라인을 포함하도록 지정할 수도 있습니다. 헤더 라인은 헤더를 구성해야 하는 라인 수를 지정하거나 헤더 마커를 사용하여 읽은 라인과 일치시켜 계산할 수 있습니다. 이러한 일치 항목이 발생하면 해당 라인이 헤더로 처리됩니다. 헤더 마커 일치가 처음 실패하면 더 이상 일치가 수행되지 않고 나머지 데이터는 지정된 분할에 대해 일반 라인으로 구문 분석됩니다. 헤더 계산 후 더 이상 데이터가 없는 경우 결과 분할은 헤더 라인으로만 구성됩니다.

태그

split, text

입력 요구 사항

REQUIRED

민감한 동적 속성 지원

false

속성

속성

설명

헤더 라인 수

헤더의 일부로 간주해야 하는 라인 수; 헤더 라인은 모든 분할 파일에 복제됩니다

헤더 라인 마커 문자

헤더 라인을 나타내는 데이터 파일 라인의 첫 번째 문자입니다. 헤더 라인 수가 0이 아닌 경우 이 값은 무시됩니다. 헤더 라인 마커 문자를 포함하지 않는 첫 번째 라인과 그 이후의 모든 라인은 비헤더로 간주됩니다

라인 분할 횟수

헤더 라인을 제외한 각 분할 파일에 추가될 라인 수입니다. 값이 0이면 최대 조각 크기를 설정해야 하며, 분할을 결정할 때 라인 수는 고려되지 않습니다.

최대 조각 크기

헤더 라인을 포함한 각 분할 파일의 최대 크기입니다. 참고: 한 라인이 이 속성을 초과하는 경우(해당되는 경우 헤더 포함) 해당 라인은 이 최대 조각 크기 설정을 초과하는 자체 분할로 출력됩니다.

후행 라인 바꿈 제거하기

각 분할 파일의 끝에서 라인 바꿈을 제거할지 여부입니다. 나중에 분할된 파일을 병합하려는 경우 이 값을 false으로 설정해야 합니다. 이 옵션을 ‘true’로 설정하고 ‘빈 라인’만 포함된 FlowFile (즉, r 및 n 문자로만 구성)을 생성하는 경우 FlowFile 은 전송되지 않습니다. 단, 헤더 행을 지정하면 헤더 행으로 구성되므로 결과 FlowFile 은 비어 있지 않으므로 헤더 행만 포함된 FlowFile 이 전송될 수 있습니다.

관계

이름

설명

실패

어떤 이유로 파일을 분할할 수 없는 경우 원본 파일은 이 대상으로 라우팅되고 다른 곳으로 라우팅되지 않습니다

원본

원본 입력 파일이 1개 이상의 파일로 성공적으로 분할되면 이 대상으로 라우팅됩니다

분할

입력 파일이 1개 이상의 분할 파일로 성공적으로 분할되면 분할 파일은 이 대상으로 라우팅됩니다

Writes 특성

이름

설명

text.line.count

원본 FlowFile 에서 이 FlowFile 로 복사된 텍스트의 라인 수

fragment.size

원본 FlowFile에서 이 FlowFile 로 복사본이 복사된 바이트 수(해당되는 경우 각 분할 FlowFile 에서 중복된 헤더 포함)입니다

fragment.identifier

동일한 상위 항목 FlowFile 에서 생성된 모든 분할 FlowFiles 에는 이 특성에 대해 무작위로 생성된 UUID 가 추가됩니다

fragment.index

단일 상위 FlowFile 에서 생성된 분할 FlowFiles 의 순서를 나타내는 원업 번호입니다

fragment.count

상위 FlowFile 에서 생성된 분할 FlowFiles 의 수입니다

segment.original.filename

상위 FlowFile 의 파일 이름

참고 항목