GrokReader

Beschreibung

Bietet einen Mechanismus zum Lesen von unstrukturierten Textdaten, wie z. B. Protokolldateien, und zum Strukturieren der Daten, sodass sie verarbeitet werden können. Der Dienst wird mit Grok-Mustern konfiguriert. Der Dienst liest aus einem Datenstrom und teilt jede gefundene Meldung in einen separaten Datensatz auf, der jeweils die konfigurierten Felder enthält. Wenn eine Zeile in der Eingabe nicht mit dem erwarteten Meldungsmuster übereinstimmt, wird die Textzeile je nach Konfiguration entweder als Teil der vorherigen Meldung betrachtet oder übersprungen, mit Ausnahme von Stapelablaufverfolgungen (Stacktraces). Eine Stapelablaufverfolgung, die am Ende einer Protokollmeldung gefunden wird, gilt als Teil der vorherigen Meldung, wird aber dem Feld „stackTrace“ des Datensatzes hinzugefügt. Wenn ein Datensatz keine Stapelblaufverfolgung (stacktrace) hat, enthält er einen NULL-Wert für das Feld stackTrace (vorausgesetzt, das Schema enthält tatsächlich ein Feld stackTrace vom Typ Zeichenfolge (String)). Unter der Annahme, dass das Schema ein Feld „_raw“ vom Typ Zeichenfolge enthält, wird die Rohmeldung in den Datensatz aufgenommen.

Tags

grok, logfiles, logs, logstash, parse, pattern, reader, record, regex, text, unstructured

Eigenschaften

In der folgenden Liste sind die erforderlichen Eigenschaften mit einem Sternchen (*) gekennzeichnet. Andere Eigenschaften werden als optional betrachtet. Die Tabelle zeigt auch alle Standardwerte und ob eine Eigenschaft die NiFi Expression Language unterstützt.

Display Name (Anzeigename)

API-Name

Standardwert

Zugelassene Werte

Beschreibung

Grok Expressions *

Grok Expression

Gibt das Format einer Protokollzeile im Grok-Format an. Dies ermöglicht es dem Record Reader zu verstehen, wie er die einzelnen Protokollzeilen analysieren soll. Die Eigenschaft unterstützt einen oder mehrere Grok-Ausdrücke. Der Reader versucht, die Eingabezeilen entsprechend der konfigurierten Reihenfolge der Ausdrücke zu analysieren. Wenn eine Zeile in der Protokolldatei mit keinem der Ausdrücke übereinstimmt, wird angenommen, dass die Zeile zur vorherigen Protokollmeldung gehört. Wenn dieser Ausdruck auf andere Grok-Muster verweist, müssen diese in der Eigenschaft „Grok-Musterdatei“ angegeben werden.

Grok Patterns

Grok Pattern File

Grok-Muster, die für das Parsen von Protokollen verwendet werden. Wenn nicht angegeben, wird eine integrierte Standardmusterdatei verwendet. Falls angegeben, überschreiben alle angegebenen Muster die Standardmuster. Eine Liste der vordefinierten Muster finden Sie in den weiteren Details des Controller Service.

No Match Behavior *

no-match-behavior

append-to-previous-message

  • An vorherige Meldung anhängen

  • Zeile überspringen

  • Rohzeile

Wenn eine Textzeile angetroffen wird, die nicht mit dem angegebenen Grok-Ausdruck übereinstimmt und nicht Teil einer Stapelablaufverfolgung (stacktrace) ist, gibt diese Eigenschaft an, wie der Text verarbeitet werden soll.

Schema Access Strategy *

schema-access-strategy

string-fields-from-grok-expression

  • Zeichenfolgenfelder aus Grok-Ausdruck verwenden

  • Eigenschaft „Schema Name“ verwenden

  • Eigenschaft „Schema Text“ verwenden

  • Schema Reference Reader

Gibt an, wie das Schema abgerufen wird, das zur Interpretation der Daten verwendet werden soll.

Schema Branch

schema-branch

Gibt den Namen des Zweigs an, der beim Suchen des Schemas in der Eigenschaft „Schema Registry“ verwendet werden soll. Wenn die gewählte „Schema Registry“ keine Verzweigungen unterstützt, wird dieser Wert ignoriert.

Schema Name

schema-name

${schema.name}

Gibt den Namen des Schemas an, das in der Eigenschaft Schema Registry gesucht werden soll.

Schema Reference Reader *

schema-referenz-reader

Dienstimplementierung, die für das Lesen von FlowFile-Attributen oder -Inhalten verantwortlich ist, um den Schema Reference Identifier zu ermitteln

Schema Registry

schema-registry

Gibt den Controller Service an, der für die Schema Registry verwendet werden soll

Schema Text

schema-text

${avro.schema}

Der Text eines Avro-formatierten Schemas

Schema Version

schema-version

Gibt die Version des Schemas an, die in der Schema Registry gesucht werden soll. Wenn nicht angegeben, wird die neueste Version des Schemas abgerufen.

Statusmanagement

Diese Komponente speichert keinen Status.

Eingeschränkt

Einschränkungen

Erforderliche Berechtigung

Erläuterung

reference remote resources

Muster und Ausdrücke können auf Ressourcen über HTTP verweisen.

Hinweise zu Systemressourcen

Diese Komponente enthält keine Angaben zu den Systemressourcen.