Document AI

Document AI とは

Document AI は、独自の大規模言語モデル(LLM)である Arctic-TILT を使用して、ドキュメントからデータを抽出するSnowflake AI 機能です。 Document AI はさまざまな形式のドキュメントを処理し、テキストが多い段落と、ロゴ、手書きテキスト(署名)、チェックマークなどのグラフィカルな形式のコンテンツの両方から情報を抽出します。 Document AI を使用すると、請求書や財務諸表など、特定の種類の新しいドキュメントを継続的に処理するためのパイプラインを準備できます。

Document AI はゼロショット抽出と微調整の両方を提供します。ゼロショットとは、基礎モデルがそのドキュメントを見たことがない場合でも、ドキュメントタイプに固有の情報を見つけて抽出できることを意味します。これは、基礎モデルが大量の様々なドキュメントでトレーニングされているため、処理されるドキュメントの種類をモデルが大まかに理解しているためです。

さらに、ユースケースに特化したドキュメントでモデルをトレーニングすることで、Snowflake Arctic- TILTモデルを微調整し、結果を改善することができます。微調整されたモデル(使用されたトレーニングデータを含む)は、お客様のみが利用でき、他のSnowflakeのお客様と共有されることはありません。

Document AI を使用するタイミング

Document AI は、次のような場合に使用するのが最適です。

  • ドキュメントの非構造化データをテーブルの構造化データに変換したい場合。

  • 特定の種類の新規ドキュメントを継続的に処理するパイプラインを作成したい場合。

  • ドメインの知識を持つビジネスユーザーがモデルを準備し、SQLで作業するデータエンジニアが新しいドキュメントの処理を自動化するパイプラインを準備する場合。

Document AI の仕組み

Document AI の操作は、2つの段階に分けられます。

  • Document AI モデルビルドを準備する

    モデルビルドは単一のドキュメントまたはユースケースのタイプを表していると考えることができます。例えば、請求書ドキュメントから情報を抽出するためのモデルビルドなどです。 Document AI モデルビルドには、モデル、抽出されるデータ値、モデルのテストとトレーニングのためにアップロードされるドキュメントが含まれます。

    Snowsightの Document AI ユーザーインターフェイスでモデルビルドの準備をします。このインターフェイスでは、モデルビルドの作成、モデルのテストとトレーニングのためのドキュメントのアップロード、自然言語を使った質問によるデータ値(抽出する情報)の定義、モデルの評価、モデルビルドの公開、または結果を改善するためのモデルの微調整を行うことができます。

    詳細については、 Document AI モデルビルドを準備する をご参照ください。

  • ドキュメントから情報を抽出する

    モデルビルドの準備ができたら、 <モデルビルド名>!PREDICT メソッドを使用する抽出クエリを実行することで、ドキュメントから情報を抽出し始めることができます。その後、抽出クエリを使用して、ストリームとタスクによる継続的処理のパイプラインを作成できます。

    詳細については、 Document AI を使用して情報を抽出する をご参照ください。

    注釈

    <モデルビルド名>!PREDICT メソッドを使って処理されるドキュメントは、内部ステージまたは外部ステージに保存する必要があります。

ドキュメント AI の概要

Document AI を開始するには、 チュートリアル: Document AI でドキュメント処理パイプラインを作成する をご参照ください。

Document AI モデルのバージョン履歴

2024年8月6日以降に作成されたすべてのモデルビルドは、新バージョンのArctic-TILT モデルを使用しています。

モデルのバージョンの発売日

モデルのバージョンの改善

2024年8月6日

  • モデルによる回答の長さを倍増しました。モデルは、最大256トークン(約160単語)の長さの回答を返すことができるようになりました。

  • トレーニング時間を改善しました。 トレーニング時間の推定 をご参照ください。

2024年6月21日

  • 値のリストの抽出

  • チェックボックスの識別

  • クエリの意訳認識により、 契約の日付を教えてください のような文として構築されたクエリの認識を向上させます。