Document AI のためのドキュメントを準備する

このトピックでは、 Document AI で使用するドキュメントの準備方法について説明します。

Document AI で処理するドキュメントは、以下の要件を満たしている必要があります。

  • ドキュメントは125ページ以内でなければなりません。

  • ドキュメントは以下のいずれかの形式でなければなりません:

    • PDF

    • PNG

    • DOCX

    • EML

    • JPEG, JPG

    • HTM, HTML

    • TEXT, TXT

    • TIF, TIFF

  • ドキュメントは50 MB以下のサイズに限ります。

  • ドキュメントページの寸法が1200 × 1200 mm以下であること。

  • 画像は50 × 50ピクセルから10,000 × 10,000ピクセルの間でなければなりません。

モデルのトレーニングプロセスを改善するには、 Document AI にアップロードするドキュメントが実際のユースケースやシナリオを表していること、そしてデータセットがレイアウトとデータの両方において多様なドキュメントで構成されていることを確認します。

データセットの情報が多様であることを確認してください。すべてのドキュメントに同じデータ(例えば、同じ性別や民族性)が含まれている場合、または情報が常に同じ形式(例えば、特定の日付形式)で表示されている場合、モデルは正しくない結果を提供する可能性があります。