Cortex AI 関数:ドキュメント¶
SnowflakeはCortex AI 関数として、高度な AI 駆動型ドキュメントインテリジェンス機能を提供します。これらの関数は、シンプルな SQL を使用して、さまざまなドキュメントタイプから情報を処理、解析、分類、抽出し、分析、自動化、インテリジェントアプリケーションを強化するのに役立ちます。ドキュメント関数は以下のタスクを支援します。
ドキュメントを解析 して、構造化されていないテキストとレイアウトを構造化された、検索可能、分析可能なコンテンツに変換します。
ドキュメントから 構造化情報を抽出 (エンティティ、テーブル、またはフィールド)します。
下流のワークフローと分析を推進するために ドキュメントタイプを分類 します。
Cortexドキュメント処理関数を組み合わせることで、検索拡張生成( RAG )パイプライン、インテリジェント検索およびチャットボットシステム、大規模なドキュメント分析を構築できます。次の図は、Cortexドキュメント処理関数が、カスタマイズされたソリューションを構築するためにコンポーネントを組み合わせることができる、構成可能なフレームワークを形成する方法を示しています。
ドキュメント関数¶
ドキュメント処理のためのコアCortex AI 関数は次のとおりです。
AI_PARSE_DOCUMENT:レイアウトとコンテキストを維持しながら、デジタルネイティブまたはスキャンされたドキュメントをリッチテキストに変換します。オプションで、ドキュメントから画像を抽出します。セマンティック検索、 RAG パイプライン、および要約ワークフローに最適です。ドキュメントの内容全体を理解する必要があるドキュメント分析に適しています。
AI_EXTRACT:ドキュメントから高品質の構造化された情報を抽出します。テキスト、テーブル、チェックボックス、手書き、その他の視覚要素を理解します。スキーマに基づいて構造化データを抽出することに特化しています。
その他のCortex AI 関数はドキュメント処理ワークフローに役立ちます。ドキュメントページの画像をこれらの関数に直接渡すか、上記の主要なドキュメント関数のいずれかを使用してテキストを抽出し、関数のいずれかを使用してそのテキストを処理することができます。
AI_COMPLETE:最も汎用性の高い AI 関数である AI_COMPLETE は、指定したプロンプトに基づいてテキスト補完を生成するため、ドキュメントからのテキストの抽出や変換を伴う、さまざまなタスクに使用できます。
AI_CLASSIFY:テキストコンテンツを定義したクラス(例えば、請求書、契約、レポートなど)に分類します。
次のテキスト処理 AI 関数を使用して、ドキュメントから抽出されたテキストをさらに分析または変換できます。
AI_SENTIMENT:テキストコンテンツの感情を分析します。
AI_TRANSLATE:言語間でテキストコンテンツを翻訳します。
SUMMARIZE:テキストコンテンツの簡潔な要約を生成します。
ユースケース¶
ドキュメント処理用のCortex AI 関数は、さまざまなユースケースに対応するために、一緒にまたは個別に使用するように設計されており、以下の2つのユースケースに適しています。
チャットボットおよびエンタープライズ検索サービス用の RAG パイプラインの構築¶
AI_PARSE_DOCUMENT により処理されるドキュメントは、Cortex Search Serviceによってインデックスを作成することができます。これは、検索拡張生成( RAG )エンジンとして機能し、ユーザークエリに対する言語モデルの応答を改善できます。このシナリオでは、Cortex Search Serviceを使ってクエリに関連するドキュメントを検索し、これらのドキュメントをプロンプトの一部として AI_COMPLETE に渡すことで、より文脈に応じた応答を生成します。
ワークフローと分析を合理化するためのドキュメント処理パイプラインの構築¶
Cortexドキュメント処理 AI 関数は、モジュラーコンポーネントを使用してインテリジェント、柔軟、スケーラブルなドキュメント処理パイプラインを構築するのに役立ちます。このようなパイプラインは、さまざまな形式でドキュメントを取り込み、実用的なデータに変換し、次のようなワークフローを構築することができます。
スキーマベースの抽出:自然言語スキーマを適用して、ドキュメントのセットから、単一のエンティティから複雑な表データまでさまざまなエンティティを抽出します。
ドキュメントに対するQ&A:ドキュメントについて自然言語で質問します。
テキストとレイアウトの抽出:ドキュメントテキスト(レイアウトの有無にかかわらず)をキャプチャし、エンティティを抽出し、要約を生成し、他の AI 関数を使用して分析を実行します。
分類:データを取り込む際にドキュメントタイプ(例: 「請求書」、「契約」、「レポート」)を決定し、各タイプを適切な処理ワークフローにルーティングします。
カスタム抽出および分類モデルを共有するためのモデルレジストリの構築:モデルレジストリには、組織固有のカスタムユースケース用に微調整されたドキュメント抽出モデルが格納されます。チーム全体でこれらのモデルを再利用すると、時間と労力が節約されます。