ExtractText 2025.10.2.19¶
번들¶
org.apache.nifi | nifi-standard-nar
설명¶
FlowFile의 내용에 대해 하나 이상의 정규식을 평가합니다. 이러한 정규식의 결과는 FlowFile 특성에 할당됩니다. 정규식은 사용자 정의 속성을 추가하여 입력합니다. 속성의 이름은 결과가 배치될 특성 이름에 매핑됩니다. 특성은 명명된 캡처 그룹의 활성화에 따라 다르게 생성됩니다. 명명된 캡처 그룹이 활성화되지 않은 경우 첫 번째 캡처 그룹(있는 경우)이 해당 특성 이름에 배치됩니다. 그러나 일치한 문자열 시퀀스 자체를 포함한 모든 캡처 그룹도 인덱스 값이 제공된 해당 특성 이름에 함께 제공됩니다. 단, 선택적인 캡처 그룹 중 일치하지 않은 경우는 예외입니다. 예를 들어, 특성 이름이 “regex”, 표현식이 “abc(def)?(g)”인 경우, “def”가 일치하면 “regex.1”이라는 특성이 추가되고 해당 값은 “def”가 됩니다. 명명된 캡처 그룹이 활성화된 경우: 명명된 각 캡처 그룹(있는 경우)이 제공된 이름으로 이름 특성에 배치됩니다. 활성화된 경우 일치하는 문자열 시퀀스 자체가 특성 이름에 배치됩니다. 여러 일치 항목이 활성화된 경우, 첫 번째 일치 항목 세트 이후에 인덱스가 적용됩니다. 선택적인 캡처 그룹 중에서 일치하지 않는 경우는 예외입니다. 예를 들어 특성 이름이 “regex”이고, 표현식이 “abc(?<NAMED>def)?(?<NAMED-TWO>g)”인 경우 “def”가 일치하면 “regex. NAMED”라는 특성이 추가되고 해당 값은 “def”가 됩니다. “g”가 일치하더라도 값이 “g”인 “regex. NAMED-TWO” 특성을 추가합니다. 이 속성의 값은 하나 이상의 캡처 그룹이 있는 유효한 정규식이어야 합니다. 명명된 캡처 그룹이 활성화된 경우 모든 캡처 그룹의 이름을 지정해야 합니다. 이름을 지정하지 않으면 프로세서 구성은 유효성 검사에 실패합니다. 정규식이 두 번 이상 일치하는 경우, 반복 캡처 그룹을 활성화하는 속성이 true로 설정되어 있지 않으면 첫 번째 일치 항목만 사용됩니다. 제공된 정규식이 일치하는 경우, FlowFile은 ‘일치’로 라우팅됩니다. 제공된 정규식이 일치하지 않으면 FlowFile은 ‘일치하지 않음’으로 라우팅되고 FlowFile에 어떤 특성도 적용되지 않습니다.
입력 요구 사항¶
REQUIRED
민감한 동적 속성 지원¶
false
속성¶
속성 |
설명 |
|---|---|
문자 세트 |
파일이 인코딩되는 문자 세트입니다 |
Enable Canonical Equivalence |
두 문자의 전체 정식 분해가 일치하는 경우에만 두 문자가 일치함을 나타냅니다. |
대/소문자 구분 없는 일치 사용 |
두 문자가 대문자 및 소문자가 다른 경우에도 일치함을 나타냅니다. 포함된 플래그(?i)를 통해 지정할 수도 있습니다. |
Enable DOTALL Mode |
표현식 ‘.’은 줄 종결자를 포함한 모든 문자와 일치해야 합니다. 포함된 플래그(?s)를 통해 지정할 수도 있습니다. |
Enable Literal Parsing of the Pattern |
메타문자와 이스케이프 문자에 특별한 의미를 부여하지 않아야 함을 나타냅니다. |
Enable Multiline Mode |
‘^’ 및 ‘$’가 전체 입력의 시작 또는 끝이 아니라 줄 종결자 또는 시퀀스의 끝 바로 뒤와 바로 앞에서 일치해야 함을 나타냅니다. 포함된 플래그(?m)를 통해 지정할 수도 있습니다. |
Enable Unicode Predefined Character Classes |
유니코드 기술 표준 #18: 유니코드 정규식 부록 C: 호환성 속성을 준수하도록 지정합니다. 포함된 플래그(?U)를 통해 지정할 수도 있습니다. |
Enable Unicode-aware Case Folding |
‘Enable Case-insensitive Matching’과 함께 사용하면 유니코드 표준과 일관된 방식으로 일치됩니다. 포함된 플래그(?u)를 통해 지정할 수도 있습니다. |
Enable Unix Lines Mode |
‘. ‘,’^ ‘ 및’$’의 동작에서 줄 종결자만 인식됨을 나타냅니다. 포함된 플래그(?d)를 통해 지정할 수도 있습니다. |
Enable named group support |
true로 설정하면 명명된 그룹이 정규식에 있을 때 그룹 인덱스와는 다르게 특성 이름에 그룹 이름이 사용됩니다. 모든 캡처 그룹의 이름을 지정해야 하며 그룹 수(캡처 그룹 0 제외)가 명명된 그룹 수와 같지 않으면 유효성 검사가 실패합니다. |
Enable repeating capture group |
true로 설정하면 캡처 그룹과 일치하는 모든 문자열이 추출됩니다. 그렇지 않으면 정규식이 두 번 이상 일치하는 경우 첫 번째 일치 항목만 추출됩니다. |
Include Capture Group 0 |
캡처 그룹 0을 특성으로 포함해야 함을 나타냅니다. 캡처 그룹 0은 정규식 일치의 전체를 나타내며, 일반적으로 사용되지 않으며, 길이가 상당히 길 수 있습니다. |
Maximum Buffer Size |
정규식을 적용하기 위해 버퍼링(FlowFile 당)할 최대 데이터 양을 지정합니다. 지정된 최대 크기보다 큰 FlowFiles 은 완전히 평가되지 않습니다. |
Maximum Capture Group Length |
지정된 캡처 그룹 값에 포함할 수 있는 최대 문자 수를 지정합니다. 최대 길이를 초과하는 문자는 잘립니다. |
Permit Whitespace and Comments in Pattern |
이 모드에서는 공백이 무시되고 #으로 시작하는 포함된 주석은 줄 끝까지 무시됩니다. 포함된 플래그(?x)를 통해 지정할 수도 있습니다. |
관계¶
이름 |
설명 |
|---|---|
matched |
정규 식이 성공적으로 평가되고 그 결과 FlowFiles 이 수정되면 FlowFile 은 이 관계로 라우팅됩니다. |
unmatched |
FlowFiles 은 제공된 정규식이 FlowFile 의 내용과 일치하지 않을 때 이 관계로 라우팅됩니다. |