Fonctions Cortex AI : Documents

Snowflake fournit des capacités d’intelligence des documents alimentées par l’AI en tant que fonctions Cortex AI. Ces fonctions vous aident à traiter, à analyser, à classifier et à extraire des informations d’une grande variété de types de documents pour alimenter les applications d’analyse, d’automatisation et intelligentes, le tout à l’aide d’un SQL simple. Les fonctions relatives aux documents vous aident à effectuer les tâches suivantes :

  • Analyser des documents pour convertir du texte et des mises en page non structurés en contenu structuré, interrogeable et analysable.

  • Extraire des informations structurées (entités, tables ou champs) à partir de documents.

  • Classer les types de documents pour canaliser les workflows et les analyses en aval.

Les fonctions de traitement des documents Cortex peuvent être combinées pour créer des pipelines de génération augmentée par la récupération (RAG), des systèmes de recherche intelligente et de chatbot, ainsi que des analyses de documents à grande échelle. L’illustration suivante montre comment les fonctions de traitement des documents Cortex forment un cadre modulable dans lequel les composants peuvent être mélangés et associés pour créer des solutions sur mesure.

Framework modulable pour les fonctions de traitement des documents Cortex

Fonctions relatives aux documents

Les principales fonctions Cortex AI pour le traitement des documents sont les suivantes :

  • :doc:` AI_PARSE_DOCUMENT <parse-document>` : Convertit les documents natifs numériques ou numérisés en texte enrichi tout en préservant la mise en page et le contexte. En option, extrait des images à partir de documents. Idéal pour la recherche sémantique, les pipelines de RAG et les workflows de résumé. Fonctionne bien avec l’analyse de documents qui nécessite de comprendre l’intégralité du contenu du document.

  • :doc:` AI_EXTRACT <document-extraction>` : Fournit une extraction structurée de haute qualité des informations des documents. Comprend le texte, les tables, les cases à cocher, l’écriture manuelle et d’autres éléments visuels. Se spécialise dans l’extraction de données structurées à partir d’un schéma.

Les autres fonctions Cortex AI sont utiles dans les flux de travail de traitement des documents. Vous pouvez transmettre des images de pages de documents directement à ces fonctions, ou vous pouvez extraire le texte à l’aide de l’une des principales fonctions relatives aux documents ci-dessus et utiliser l’une des fonctions pour traiter ce texte.

  • :doc:` AI_COMPLETE </sql-reference/functions/ai_complete>` : La fonction d’AI la plus polyvalente, AI_COMPLETE, génère des complétions de texte sur la base d’une invite que vous fournissez, et peut donc être utilisée pour une grande variété de tâches impliquant l’extraction ou la transformation de texte à partir de documents.

  • :doc:` AI_CLASSIFY </sql-reference/functions/ai_classify>` : Catégorise le contenu du texte dans des classes que vous définissez (par exemple, facture, contrat ou rapport).

Les fonctions d’AI de traitement de texte suivantes peuvent être utilisées pour analyser ou transformer le texte extrait des documents.

  • :doc:` AI_SENTIMENT </sql-reference/functions/ai_sentiment>` : Analyse le sentiment du contenu textuel.

  • :doc:` AI_TRANSLATE </sql-reference/functions/ai_translate>` : Traduit le contenu textuel entre différentes langues.

  • :doc:` SUMMARIZE </sql-reference/functions/summarize-snowflake-cortex>` : Génère des résumés concis du contenu textuel.

Cas d’utilisation

Les fonctions Cortex AI de traitement de documents sont conçues pour être utilisées ensemble ou individuellement afin de répondre à divers cas d’utilisation, et sont bien adaptées à ces deux cas d’utilisation :

Création de pipelines de RAG pour les chatbots et les services de recherche d’entreprise

Les documents traités par AI_PARSE_DOCUMENT peuvent être indexés par les Cortex Search Services, qui peuvent agir comme des moteurs de génération augmentée par la récupération (RAG) pour améliorer les réponses des modèles de langage aux requêtes des utilisateurs. Dans ce scénario, vous utilisez le Cortex Search Service pour trouver des documents liés à la requête, puis vous transmettez ces documents à AI_COMPLETE dans le cadre de l’invite pour générer des réponses pertinentes plus contextuelles.invite

Création de pipelines de traitement de documents pour rationaliser les workflows et les analyses

Les fonctions Cortex AI de traitement des documents vous aident à créer des pipelines de traitement des documents intelligents, flexibles et évolutifs à l’aide de composants modulaires. Un tel pipeline ingère des documents dans différents formats et les transforme en données exploitables, vous permettant de créer des flux de travail comme ceux-ci :

  • Extraction basée sur le schéma : Appliquez un schéma en langage naturel pour extraire des entités (des entités uniques à des données tabulaires complexes) à partir d’un ensemble de documents.

  • Questions-réponses sur le document : Posez des questions sur un document en langage naturel.

  • Extraction de texte et de mise en page : Capturez le texte d’un document (avec ou sans mise en page) pour extraire des entités, générer des résumés, et effectuer des analyses à l’aide d’autres fonctions d’AI.

  • Classification : Déterminez le type de document (par exemple, « facture », « contrat », « rapport ») lors de l’ingestion de données afin d’acheminer chaque type vers un flux de traitement approprié.

  • Créez un registre de modèles pour partager des modèles d’extraction et de classification personnalisés : Un registre de modèles stocke les modèles d’extraction de documents affinés pour les cas d’utilisation personnalisés spécifiques à votre organisation. La réutilisation de ces modèles entre les équipes permet de gagner du temps et de réduire les efforts.