La fonction Cortex PARSE_DOCUMENT¶
La fonction PARSE_DOCUMENT est une fonction spécifique à la tâche Cortex AI qui vous donne la possibilité d’extraire du texte ou de la mise en page à partir de documents stockés dans une zone de préparation interne ou externe. PARSE_DOCUMENT combine de puissantes capacités de reconnaissance optique de caractères (OCR) avec des modèles de machine learning pour identifier le contenu du texte, les informations stockées dans les tables et les éléments structurels de documents PDF. Vous pouvez utiliser la fonction PARSE_DOCUMENT permettant d’extraire du texte et la mise en page du document pour créer des systèmes de recherche d’informations sur de grandes archives de documents commerciaux et pour charger les informations extraites dans des tables Snowflake structurées à utiliser par vos applications.
Fonctionnement de PARSE_DOCUMENT¶
La fonction PARSE_DOCUMENT propose les modes OCR (par défaut) et LAYOUT pour le traitement des documents PDF.
Le mode PARSE_DOCUMENT OCR (par défaut) est optimisé pour l’extraction de texte à partir de documents contenant beaucoup de texte. Il s’agit de l’option recommandée pour une extraction de texte rapide, facile et efficace à partir de documents qui n’ont pas une structure sémantique forte.
Le mode PARSE_DOCUMENT LAYOUT (facultatif) est optimisé pour l’extraction de texte et d’éléments de mise en page tels que des tables. Il s’agit de l’option recommandée pour améliorer le contexte d’une base de connaissances documentaires afin d’optimiser les systèmes de recherche d’informations et l’inférence du Large Language Model (LLM). Par exemple, vous pouvez isoler des sections de texte en utilisant les éléments LAYOUT pour des tâches d’extraction d’entités plus ciblées.
Utilisation de PARSE_DOCUMENT¶
La fonction Cortex PARSE_DOCUMENT est une fonction SQL. Parce qu’elle est entièrement hébergée et gérée par Snowflake, son utilisation ne nécessite aucune configuration. Pointez la fonction PARSE_DOCUMENT vers une zone de préparation qui contient vos documents PDF pour en extraire des données de texte ou de mise en page. L’exemple suivant extrait le texte et les informations de mise en page du fichier document_1.pdf
sur la zone de préparation documents
de la base de données parse_document
et du schéma demo
.
Note
PARSE_DOCUMENT est actuellement incompatible avec les politiques de réseau personnalisées.
SELECT
SNOWFLAKE.CORTEX.PARSE_DOCUMENT(
@parse_document.demo.documents,
'document_1.pdf',
{'mode': 'LAYOUT'}
) AS layout;
PARSE_DOCUMENT prend en charge le traitement des documents stockés dans une zone de préparation interne à Snowflake ou dans une zone de préparation externe. En créant votre zone de préparation, le Chiffrement côté serveur est requis. Sinon, PARSE_DOCUMENT renvoie une erreur indiquant que le fichier fourni n’est pas au format attendu ou qu’il est chiffré côté client.
CREATE STAGE input_stage
DIRECTORY = ( ENABLE = true )
ENCRYPTION = ( TYPE = 'SNOWFLAKE_SSE' );
Exigences en matière d’entrées¶
La fonction PARSE_DOCUMENT Cortex est actuellement optimisée pour les documents créés numériquement et non numérisés à partir d’une copie papier. La table suivante répertorie les limitations et les exigences relatives au document d’entrée :
Taille maximale du fichier |
100 MB |
Nombre maximal de pages par document |
300 pages |
Type de fichier autorisé |
PDF, PPTX, DOCX |
Chiffrement de zone de préparation |
Chiffrement côté serveur |
Note
PARSE_DOCUMENT n’est actuellement pas optimisé pour les langues qui utilisent des caractères non latins, comme le chinois, le japonais et le thaï. Le français, le portugais, l’italien, l’allemand, l’espagnol, le suédois et le norvégien sont pris en charge en avant-première et sont en cours d’optimisation.
Fonctionnalité clé¶
Fonction |
Description |
---|---|
Orientation de la page |
PARSE_DOCUMENT détecte automatiquement l’orientation de la page. |
Caractères |
PARSE_DOCUMENT détecte les caractères suivants :
|
Langues |
PARSE_DOCUMENT est optimisé pour l’anglais. Il prend également en charge le français, le portugais, l’italien, l’allemand, l’espagnol, le suédois et le norvégien en avant-première. |
Disponibilité régionale¶
La prise en charge de cette fonctionnalité est disponible pour les comptes dans les régions Snowflake suivantes :
AWS |
Azure |
---|---|
US Ouest 2 (Oregon) |
Est US 2 (Virginie) |
US East (Ohio) |
Europe de l’Ouest (Pays-Bas) |
US East 1 (N. du Nord) |
|
Europe (Irlande) |
|
Europe Central 1 (Francfort) |
Exigences en matière de contrôle d’accès¶
Pour utiliser la fonction PARSE_DOCUMENT, un utilisateur ayant un rôle ACCOUNTADMIN doit accorder le rôle de base de données SNOWFLAKE.CORTEX_USER à l’utilisateur qui appellera la fonction. Consultez la rubrique Privilèges requis pour plus de détails.
Considérations relatives aux clients¶
La fonction Cortex PARSE_DOCUMENT engendre des coûts de calcul basés sur le nombre de pages par document compté.
Snowflake recommande d’exécuter les requêtes qui font appel à la fonction Cortex PARSE_DOCUMENT dans un entrepôt plus petit (pas plus grand que MEDIUM). Des entrepôts plus grands n’augmentent pas les performances.
Conditions d’erreur¶
Snowflake Cortex PARSE_DOCUMENT peut produire les messages d’erreur suivants.
Message |
Explication |
---|---|
Le fichier fourni n’est pas au format attendu. Assurez-vous que le fichier est un PDF. |
Renvoyé lorsque le document n’est pas un PDF valide. |
Nombre maximum de 100 pages dépassé. |
Renvoyé lorsque le PDF contient plus de 100 pages. |
La taille maximale du fichier de 104857600 octets a été dépassée. |
Renvoyé lorsque le document est supérieur à 100 MB. |
Le fichier fourni ne peut pas être trouvé ou consulté. |
Le fichier n’existe pas. |
Erreur interne. |
Une erreur système s’est produite. Attendez et réessayez. |
Incorporation de PARSE_DOCUMENT dans les pipelines RAG¶
La génération augmentée par récupération (RAG) est une technique permettant de récupérer des données à partir d’une base de connaissances pour améliorer la réponse générée par un LLM. La qualité et le contexte du contenu extrait de divers documents sont fondamentaux pour les performances de récupération dans un système de recherche de documents. Le mode PARSE_DOCUMENT LAYOUT vous permet d’implémenter facilement une extraction de contenu avancée qui maintient l’intégrité structurelle d’un document, vous permettant de diviser facilement le texte en unités de texte concises et autonomes. Cela vous donne en retour la possibilité d’implémenter un découpage sémantique au lieu de vous fier à des divisions de caractères arbitraires, ainsi que d’exécuter des questions-réponses ciblées et des résumés.
Avis juridiques¶
La classification des données d’entrées et de sorties est présentée dans la table suivante.
Classification des données d’entrée |
Classification des données de sortie |
Désignation |
---|---|---|
Usage Data |
Customer Data |
Preview AI Features [1] |
Pour plus d’informations, reportez-vous à Snowflake AI et ML.