ExtractText 2025.5.31.15

번들

org.apache.nifi | nifi-standard-nar

설명

FlowFile 의 내용에 대해 1개 이상의 정규식을 평가합니다. 이러한 정규식의 결과는 FlowFile 특성에 할당됩니다. 정규식은 사용자 정의 속성을 추가하여 입력하며, 속성 이름은 결과가 배치될 특성 이름에 매핑됩니다. 특성은 명명된 캡처 그룹의 활성화 여부에 따라 다르게 생성됩니다. 명명된 캡처 그룹이 활성화되지 않은 경우: 첫 번째 캡처 그룹이 발견되면 해당 속성 이름에 배치됩니다.그러나 선택 사항이고 일치하지 않는 캡처 그룹을 제외하고 일치하는 문자열 시퀀스 자체를 포함한 모든 캡처 그룹도 해당 속성 이름에 인덱스 값이 제공되며, 예를 들어, 속성 이름 “regex”와 식 “abc(def)?(g)”가 주어진 경우 “def”가 일치하면 “regex.1” 속성을 추가하고 “def” 값은 “def”로 지정합니다. “def”가 일치하지 않으면 “regex.1”이라는 특성이 추가되지 않지만 값이 “g”인 “regex.2”라는 특성이 추가됩니다.명명된 캡처 그룹이 활성화되어 있는 경우 이에 관계없이 추가됩니다. 각 명명된 캡처 그룹이 발견되면 공급자가 제공한 이름으로 특성 이름에 배치됩니다. 활성화하면 일치하는 문자열 시퀀스 자체가 특성 이름에 배치됩니다. 여러 개의 일치 항목이 활성화되어 있는 경우 인덱스는 첫 번째 일치 항목 세트 이후에 적용됩니다. 예외는 선택 사항이고 일치하지 않는 캡처 그룹입니다. 예를 들어, 특성 이름 “regex”와 식 “abc(?< NAMED >def)?(?< NAMED - TWO >g)”가 있을 때 “def”가 일치하면 “regex. NAMED “ 속성을 추가하고 값은 “def”로 지정합니다. “g”가 일치하는 경우 “g”의 값으로 속성 “regex.NAMED-TWO” 를 추가합니다. 속성 값은 1개 이상의 캡처 그룹이 있는 유효한 정규식이어야 합니다. 명명된 캡처 그룹이 활성화된 경우 모든 캡처 그룹에 이름을 지정해야 합니다. 그렇지 않은 경우 프로세서 구성이 유효성 검사에 실패합니다. 정규식이 두 번 이상 일치하는 경우, 반복 캡처 그룹 활성화 속성이 true로 설정되어 있지 않으면 첫 번째 일치 항목만 사용됩니다. 제공된 정규식이 일치하는 경우 FlowFile 은 ‘일치’로 라우팅됩니다. 제공된 정규식이 일치하지 않으면 FlowFile 은 ‘unmatched’로 라우팅되고 FlowFile 에는 아무런 특성이 적용되지 않습니다.

태그

정규식, 텍스트, 평가, 추출, 정규식

입력 요구 사항

REQUIRED

민감한 동적 속성 지원

false

속성

속성

설명

문자 세트

파일이 인코딩되는 문자 세트입니다

Enable Canonical Equivalence

두 문자의 전체 정식 분해가 일치하는 경우에만 두 문자가 일치함을 나타냅니다.

대/소문자 구분 없는 일치 사용

두 문자가 대/소문자가 다르더라도 일치함을 나타냅니다. 임베디드 플래그(?i)를 통해서도 지정할 수 있습니다.

Enable DOTALL Mode

식 ‘.’이 줄 종결자를 포함한 모든 문자와 일치해야 함을 나타냅니다. 임베디드 플래그 (?s)를 통해서도 지정할 수 있습니다.

Enable Literal Parsing of the Pattern

메타문자와 이스케이프 문자에 특별한 의미를 부여하지 않아야 함을 나타냅니다.

Enable Multiline Mode

‘^’ 및 ‘$’가 전체 입력의 시작 또는 끝이 아니라 줄 종결자 또는 시퀀스 끝의 바로 뒤와 바로 앞에 일치해야 함을 나타냅니다. 임베드 플래그 (?m)를 통해 지정할 수도 있습니다.

Enable Unicode Predefined Character Classes

Unicode 기술 표준 #18: Unicode 정규식 부록 C: 호환성 속성을 준수하도록 지정합니다. 임베디드 플래그 (?U)를 통해서도 지정할 수 있습니다.

Enable Unicode-aware Case Folding

‘Enable Case-insensitive Matching’과 함께 사용하면 Unicode 표준과 일치하는 방식으로 일치합니다. 임베디드 플래그 (?u)를 통해서도 지정할 수 있습니다.

Enable Unix Lines Mode

‘.’, ‘^’, 및 ‘$’의 동작에서 ‘’ 라인 종결자만 인식됨을 나타냅니다. 임베디드 플래그 (?d)를 통해서도 지정할 수 있습니다.

Enable named group support

true로 설정하면 정규식에 명명된 그룹이 있는 경우 그룹 인덱스가 아닌 특성 이름에 그룹 이름이 사용됩니다. 모든 캡처 그룹에 이름을 지정해야 하며, 그룹 수(캡처 그룹 0 제외)가 같지 않으면 명명된 그룹 수 유효성 검사에 실패합니다.

Enable repeating capture group

true로 설정하면 캡처 그룹과 일치하는 모든 문자열이 추출됩니다. 그렇지 않으면 정규식이 두 번 이상 일치하는 경우 첫 번째 일치 항목만 추출됩니다.

Include Capture Group 0

캡처 그룹 0을 특성으로 포함해야 함을 나타냅니다. 캡처 그룹 0은 정규식 일치의 전체를 나타내며, 일반적으로 사용되지 않으며, 길이가 상당히 길 수 있습니다.

Maximum Buffer Size

정규식을 적용하기 위해 버퍼링(FlowFile 당)할 최대 데이터 양을 지정합니다. 지정된 최대 크기보다 큰 FlowFiles 은 완전히 평가되지 않습니다.

Maximum Capture Group Length

지정된 캡처 그룹 값에 포함할 수 있는 최대 문자 수를 지정합니다. 최대 길이를 초과하는 문자는 잘립니다.

Permit Whitespace and Comments in Pattern

이 모드에서는 공백이 무시되고 #로 시작하는 임베드된 설명은 줄이 끝날 때까지 무시됩니다. 임베디드 플래그 (?x)를 통해서도 지정할 수 있습니다.

관계

이름

설명

matched

정규 식이 성공적으로 평가되고 그 결과 FlowFiles 이 수정되면 FlowFile 은 이 관계로 라우팅됩니다.

unmatched

FlowFiles 은 제공된 정규식이 FlowFile 의 내용과 일치하지 않을 때 이 관계로 라우팅됩니다.