SplitAvro 2025.5.31.15

Bundle

org.apache.nifi | nifi-avro-nar

Beschreibung

Teilt eine binär codierte Avro-Datendatei basierend auf der konfigurierten Ausgabegröße in kleinere Dateien auf. Die Output Strategy bestimmt, ob es sich bei den kleineren Dateien um Avro-Datendateien oder um reine Avro-Datensätze mit Metadaten in den FlowFile-Attributen handelt. Die Ausgabe ist immer binär codiert.

Tags

avro, split

Eingabeanforderung

REQUIRED

Unterstützt sensible dynamische Eigenschaften

false

Eigenschaften

Eigenschaft

Beschreibung

Output Size

Die Anzahl der Avro-Datensätze, die pro geteilter Datei enthalten sein sollen. Wenn die eingehende Datei weniger Datensätze als die Ausgabegröße enthält oder wenn die Gesamtzahl der Datensätze nicht durch die Ausgabegröße teilbar ist, kann eine geteilte Datei mit weniger Datensätzen entstehen.

Output Strategy

Bestimmt das Format der Ausgabe. Entweder Avro Datafile oder ein einfacher Datensatz. Parallele Aufgaben ermöglichen es Prozessoren, mehrere Threads gleichzeitig auszuführen, wodurch der Durchsatz in Szenarien mit hohem Datenaufkommen verbessert wird.

Split Strategy

Die Strategie für die Aufteilung der eingehenden Datendatei. Die Record-Strategie liest die eingehende Datendatei, indem sie jeden Datensatz de-serialisiert.

Transfer Metadata

Ob Metadaten aus der übergeordneten Datendatei an die untergeordneten Dateien übertragen werden sollen oder nicht. Wenn die Ausgabestrategie Bare Record lautet, werden die Metadaten als FlowFile-Attribute gespeichert, andernfalls im Header der Datendatei.

Beziehungen

Name

Beschreibung

failure

Wenn ein FlowFile aus irgendeinem Grund nicht verarbeitet werden kann (z. B. weil das FlowFile kein gültiges Avro ist), wird es an diese Beziehung weitergeleitet.

original

Das Original-FlowFile, das aufgeteilt wurde. Wenn die Verarbeitung des FlowFile fehlschlägt, wird nichts an diese Beziehung gesendet.

split

Alle neuen Dateien, die aus dem Original-FlowFile geteilt wurden, werden an diese Beziehung weitergeleitet.

Schreibt Attribute

Name

Beschreibung

fragment.identifier

Alle geteilten FlowFiles, die aus demselben übergeordneten FlowFile erzeugt werden, erhalten dieselbe zufällig generierte UUID für dieses Attribut

fragment.index

Eine aufsteigende Nummer, die die Reihenfolge der aufgeteilten FlowFiles angibt, die aus einem einzigen übergeordneten FlowFile erstellt wurden.

fragment.count

Die Anzahl der aus dem übergeordneten FlowFile generierten FlowFiles

segment.original.filename

Der Dateiname des übergeordneten FlowFile