2025年3月6日 --- Cortex AI PARSE_DOCUMENT関数(OCR向け)-- 一般公開

Snowflake Cortex AI PARSE_DOCUMENTのOCRモードの一般公開を発表しました。これにより、お客様は何百万枚に及ぶドキュメントページからテキストとデータを正確に抽出することができるようになります。このSQL関数はフルマネージドになります。Snowflake のスケーラビリティ、パフォーマンス、使いやすさと組み合わせて、他のクラウドプロバイダーと同等のOCR品質を提供します。PARSE_DOCUMENT OCRは、SQLを使用して外部ステージまたはSnowflakeに格納されているPDFファイル、DOCXファイル、PPTXファイルからテキストコンテンツを抽出します。複雑なクラウドアーキテクチャは必要ありません。

Cortex AI PARSE_DOCUMENT OCRモードでは次を行うことができます。

  • デジタル形式の文書とスキャンした文書の両方からテキストを抽出できます。

  • 英語、ドイツ語、フランス語、イタリア語、ノルウェー語、ポーランド語、ポルトガル語、スペイン語、スウェーデン語のドキュメントに対する高品質な抽出を実行できます。

  • Cortex Searchを強化するRAGパイプラインとCortex AI関数(文書要約、翻訳、エンティティ抽出向け)をシームレスに統合できます。

  • ページの向きを自動検出できます。

詳細については、 Cortex PARSE_DOCUMENT をご参照ください。