Aperçu du document Cortex Parse

La fonction PARSE_DOCUMENT est une fonction spécifique à la tâche Cortex AI qui vous donne la possibilité d’extraire du texte ou de la mise en page à partir de documents stockés dans une zone de préparation interne ou externe. PARSE_DOCUMENT combine de puissantes capacités de reconnaissance optique de caractères (OCR) avec des modèles de machine learning pour identifier le contenu du texte, les informations stockées dans les tables et les éléments structurels de documents PDF. Vous pouvez utiliser la fonction PARSE_DOCUMENT permettant d’extraire du texte et la mise en page du document pour créer des systèmes de recherche d’informations sur de grandes archives de documents commerciaux et pour charger les informations extraites dans des tables Snowflake structurées à utiliser par vos applications.

Comment fonctionne Parse Document

La fonction PARSE_DOCUMENT propose les modes OCR (par défaut) et LAYOUT pour le traitement des documents PDF.

  • Le mode PARSE_DOCUMENT OCR (par défaut) est optimisé pour l’extraction de texte à partir de documents contenant beaucoup de texte. Il s’agit de l’option recommandée pour une extraction de texte rapide, facile et efficace à partir de documents qui n’ont pas une structure sémantique forte.

  • Le mode PARSE_DOCUMENT LAYOUT (facultatif) est optimisé pour l’extraction de texte et d’éléments de mise en page tels que des tables. Il s’agit de l’option recommandée pour améliorer le contexte d’une base de connaissances documentaires afin d’optimiser les systèmes de recherche d’informations et l’inférence du Large Language Model (LLM). Par exemple, vous pouvez isoler des sections de texte en utilisant les éléments LAYOUT pour des tâches d’extraction d’entités plus ciblées.

Utilisation de Parse Document

La fonction Cortex PARSE_DOCUMENT est une fonction SQL. Parce qu’elle est entièrement hébergée et gérée par Snowflake, son utilisation ne nécessite aucune configuration. Cela signifie que vous pouvez pointer la fonction PARSE_DOCUMENT à une zone de préparation où les documents PDF sont stockés pour extraire du texte ou des données de mise en page. L’exemple suivant extrait le texte et les informations de mise en page du fichier document_1.pdf sur la zone de préparation documents de la base de données parse_document et du schéma demo.

Note

PARSE_DOCUMENT est actuellement incompatible avec les politiques de réseau personnalisées.

SELECT
  SNOWFLAKE.CORTEX.PARSE_DOCUMENT(
    @parse_document.demo.documents,
    'document_1.pdf',
    {'mode': 'LAYOUT'}
  ) AS layout;
Copy

PARSE_DOCUMENT prend en charge le traitement des documents stockés dans une zone de préparation Snowflake interne ou une zone de préparation externe. En créant votre zone de préparation, le Chiffrement côté serveur est requis. Sinon, PARSE_DOCUMENT renverra une erreur indiquant que le fichier fourni n’est pas au format attendu ou est chiffré côté client.

CREATE STAGE input_stage
    DIRECTORY = ( ENABLE = true )
    ENCRYPTION = ( TYPE = 'SNOWFLAKE_SSE' );
Copy

Exigences en matière d’entrées

La fonction PARSE_DOCUMENT Cortex est actuellement optimisée pour les documents créés numériquement et non numérisés à partir d’une copie papier. La table suivante répertorie les limitations et les exigences relatives au document d’entrée :

Taille maximale du fichier

100 MB

Nombre maximal de pages par document

100 pages

Type de fichier autorisé

PDF

Chiffrement de zone de préparation

Chiffrement côté serveur

Note

PARSE_DOCUMENT n’est actuellement pas optimisé pour les langues qui utilisent des caractères non latins, comme le chinois, le japonais et le thaï. Le français, le portugais, l’italien, l’allemand, l’espagnol, le suédois et le norvégien sont pris en charge en avant-première et sont en cours d’optimisation.

Fonctionnalité clé

Fonction

Description

Orientation de la page

PARSE_DOCUMENT détecte automatiquement l’orientation de la page.

Caractères

Le document PARSE détecte les caractères suivants :

  • a-z

  • A-Z

  • 0-9

  • À Á Â Ä Å Ç È É Ê Ë Ì Í Î Ï Ò Ó Ô Õ Ö Ú Ü Ý ß à á â ã ä å æ ç è é ê ë ì í î ï ñ ò ó ô õ ö ø ù ú û ü ý ą Ć ć Č č Đ đ ę ı Ł ł ō Œ œ Š š Ÿ Ž ž ʒ β δ ε з Ṡ

  • # $ % & “ ( ) * + , - . / : ; < = > ? @ [ ] _ ` { } ¡ £ § ª « ° ¹ ² ³ ´ µ · º » ¿ ‘ € ™

Langues

PARSE_DOCUMENT est optimisé pour l’anglais. Il prend également en charge le français, le portugais, l’italien, l’allemand, l’espagnol, le suédois et le norvégien en avant-première.

Disponibilité régionale

La prise en charge de cette fonctionnalité est disponible pour les comptes dans les régions Snowflake suivantes :

AWS

Azure

US Ouest 2 (Oregon)

Est US 2 (Virginie)

US East (Ohio)

Europe de l’Ouest (Pays-Bas)

US East 1 (N. du Nord)

Europe (Irlande)

Europe Central 1 (Francfort)

Exigences en matière de contrôle d’accès

Pour utiliser la fonction PARSE_DOCUMENT, un utilisateur ayant un rôle ACCOUNTADMIN doit accorder le rôle de base de données SNOWFLAKE.CORTEX_USER à l’utilisateur qui appellera la fonction. Consultez la rubrique Privilèges requis pour plus de détails.

Considérations relatives aux clients

La fonction Cortex PARSE_DOCUMENT n’entraîne pas de frais de calcul pour le traitement des documents pendant cet aperçu. Une facturation ultérieure évoluant au fur et à mesure du traitement des documents est prévue.

Même s’il n’y a aucun coût de calcul pendant l’aperçu, vous devez choisir un entrepôt pour exécuter la requête qui appelle la fonction. Snowflake recommande d’exécuter les requêtes qui appellent la fonction Cortex PARSE_DOCUMENT avec un entrepôt plus petit (pas plus grand que MEDIUM), car les entrepôts plus grands n’augmentent pas les performances.

Conditions d’erreur

Snowflake Cortex PARSE_DOCUMENT peut produire les messages d’erreur suivants.

Message

Explication

Le fichier fourni n’est pas au format attendu. Assurez-vous que le fichier est un PDF.

Renvoyé lorsque le document n’est pas un PDF valide.

Nombre maximum de 100 pages dépassé.

Renvoyé lorsque le PDF contient plus de 100 pages.

La taille maximale du fichier de 104857600 octets a été dépassée.

Renvoyé lorsque le document est supérieur à 100 MB.

Le fichier fourni ne peut pas être trouvé ou consulté.

Le fichier n’existe pas.

Erreur interne.

Une erreur système s’est produite. Attendez et réessayez.

Incorporation de PARSE_DOCUMENT dans les pipelines RAG

La génération augmentée par récupération (RAG) est une technique permettant de récupérer des données à partir d’une base de connaissances pour améliorer la réponse générée par un LLM. La qualité et le contexte du contenu extrait de divers documents sont fondamentaux pour les performances de récupération dans un système de recherche de documents. Le mode PARSE_DOCUMENT LAYOUT vous permet d’implémenter facilement une extraction de contenu avancée qui maintient l’intégrité structurelle d’un document, vous permettant de diviser facilement le texte en unités de texte concises et autonomes. Cela vous donne en retour la possibilité d’implémenter un découpage sémantique au lieu de vous fier à des divisions de caractères arbitraires, ainsi que d’exécuter des questions-réponses ciblées et des résumés.