Cortex Parseドキュメントの概要

PARSE_DOCUMENT 関数は、Cortex AI タスク固有の関数 で、内部または外部ステージに保存されたドキュメントからテキストまたはレイアウトを抽出する機能を提供します。PARSE_DOCUMENT は、強力な光学式文字認識(OCR)機能と機械学習モデルを組み合わせて、テキストコンテンツ、テーブルに格納された情報、および PDF ドキュメントの構造要素を識別します。PARSE_DOCUMENT 関数を使用してテキストとドキュメントレイアウトを抽出し、大規模なビジネスドキュメントのアーカイブで情報検索システムを構築したり、抽出した情報を構造化されたSnowflakeテーブルにロードしてアプリケーションで使用したりすることができます。

Parseドキュメントの仕組み

PARSE_DOCUMENT 関数には、 OCR (デフォルト)と、 PDF ドキュメントを処理するための LAYOUT モードがあります。

  • PARSE_DOCUMENT OCR (デフォルト) モードは、テキスト量の多いドキュメントからのテキスト抽出に最適化されています。これは、強力なセマンティック構造を持たないドキュメントから、迅速、簡単、かつ効果的にテキストを抽出するために推奨されるオプションです。

  • PARSE_DOCUMENT LAYOUT (オプション) モードは、テーブルのようなテキストとレイアウト要素の抽出に最適化されています。これは、検索情報システムや大規模言語モデル(LLM)推論を最適化し、ドキュメントナレッジベースのコンテキストを改善するために推奨されるオプションです。たとえば、 LAYOUT 要素を使用してテキストセクションを分離し、より的を絞ったエンティティ抽出作業を行うことができます。

Parseドキュメントの使用

Cortex PARSE_DOCUMENT 関数は SQL 関数です。Snowflakeによって完全にホストされ管理されているため、これらを使用するのにセットアップは必要ありません。これは、 PDF ドキュメントが格納されているステージに PARSE_DOCUMENT 関数を指し示すことで、テキストやレイアウトデータを抽出できることを意味します。以下の例では、 parse_document データベースと demo スキーマの documents ステージのファイル document_1.pdf からテキストとレイアウト情報を抽出しています。

注釈

PARSE_DOCUMENT は現在、カスタム ネットワークポリシー と互換性がありません。

SELECT
  SNOWFLAKE.CORTEX.PARSE_DOCUMENT(
    @parse_document.demo.documents,
    'document_1.pdf',
    {'mode': 'LAYOUT'}
  ) AS layout;
Copy

PARSE_DOCUMENT は、Snowflake内部ステージまたは外部ステージに保存されたドキュメントの処理をサポートします。ステージの作成には、 サーバー側の暗号化 が必要です。そうでなければ、 PARSE_DOCUMENT は、提供されたファイルが期待された形式でないか、クライアント側で暗号化されているというエラーを返します。

CREATE STAGE input_stage
    DIRECTORY = ( ENABLE = true )
    ENCRYPTION = ( TYPE = 'SNOWFLAKE_SSE' );
Copy

入力要件

Cortex PARSE_DOCUMENT 関数は現在、ハードコピーからスキャンされたドキュメントではなく、デジタルで作成されたドキュメントに最適化されています。次のテーブルは、入力ドキュメントの制限と要件のリストです。

最大ファイルサイズ

100 MB

1ドキュメントあたりの最大ページ数

100ページ

許可されたファイルタイプ

PDF

ステージ暗号化

サーバー側の暗号化

注釈

PARSE_DOCUMENT は現在、中国語、日本語、タイ語のような非ラテン文字を使用する言語には最適化されていません。フランス語、ポルトガル語、イタリア語、ドイツ語、スペイン語、スウェーデン語、ノルウェー語はプレビューでサポートされ、さらに最適化されています。

主な機能性

関数

説明

ページオリエンテーション

PARSE_DOCUMENT は自動的にページオリエンテーションを検出します。

文字

PARSE ドキュメントは以下の文字を検出します。

  • a-z

  • A-Z

  • 0-9

  • À Á Â Ä Å Ç È É Ê Ë Ì Í Î Ï Ò Ó Ô Õ Ö Ú Ü Ý ß à á â ã ä å æ ç è é ê ë ì í î ï ñ ò ó ô õ ö ø ù ú û ü ý ą Ć ć Č č Đ đ ę ı Ł ł ō Œ œ Š š Ÿ Ž ž ʒ β δ ε з Ṡ

  • # $ % & ' ( ) * + , - . / : ; < = > ? @ [ ] _ ` { } ¡ £ § ª « ° ¹ ² ³ ´ µ · º » ¿ ‘ € ™

言語

PARSE_DOCUMENT は英語に最適化されています。プレビューではフランス語、ポルトガル語、イタリア語、ドイツ語、スペイン語、スウェーデン語、ノルウェー語もサポートしています。

リージョンの可用性

この機能のサポートは、以下のSnowflakeリージョンのアカウントで利用可能です。

AWS

Azure

US 西部2(オレゴン州)

東 US 2(バージニア)

US 東部(オハイオ)

西ヨーロッパ(オランダ)

US 東部1(北部バージニア)

ヨーロッパ(アイルランド)

ヨーロッパ中部1(フランクフルト)

アクセス制御の要件

さらに、 PARSE_DOCUMENT 関数を使用するには、 ACCOUNTADMIN ロールは、 SNOWFLAKE.CORTEX_USER データベースロールを関数を呼び出せるユーザーに付与する必要があります。詳細については 必要な権限 をご参照ください。

コストの考慮事項

Cortex PARSE_DOCUMENT 関数は、このプレビュー中にドキュメントの処理にかかる計算コストは発生しません。ドキュメントの処理に伴って規模が拡大する後日請求が予想されます。

プレビュー中は計算コストはかかりませんが、関数を呼び出すクエリを実行するウェアハウスを選択する必要があります。大規模のウェアハウスはパフォーマンスを向上しないため、Snowflakeでは小規模のウェアハウス(MEDIUM 以下)でCortex PARSE_DOCUMENT 関数を呼び出すクエリの実行を推奨しています。

エラー条件

Snowflake Cortex PARSE_DOCUMENT は以下のエラーメッセージを生成する可能性があります。

メッセージ

説明

提供されたファイルが期待された形式ではありません。ファイルが PDF であることを確認してください。

ドキュメントが有効な PDF ではない場合に返されます。

最大ページ数100ページを超えました。

PDF が100ページを超える場合は返されます。

最大ファイルサイズ104857600バイトを超えました。

ドキュメントが100 MB より大きい場合に返されます。

提供されたファイルが見つからないか、アクセスできません。

ファイルは存在しません。

内部エラー。

システムエラーが発生しました。待って、もう一度お試しください。

RAG パイプラインに PARSE_DOCUMENT を組み込む

検索拡張世代(RAG)は、 LLM の生成された応答を拡張するためにナレッジベースからデータを検索する技術です。様々なドキュメントから抽出されるコンテンツの質とコンテキストは、ドキュメント検索システムにおける検索性能の基礎となります。PARSE_DOCUMENT LAYOUT モードでは、ドキュメントの構造的完全性を維持する高度なコンテンツ抽出を簡単に実装でき、テキストを簡潔で自己完結的なテキスト単位に簡単に分割できます。これにより、恣意的な文字分割に頼らずセマンティックチャンクを実行したり、的を絞ったQ&Aや要約を実行したりすることができます。