Aperçu du document Cortex Parse¶
La fonction PARSE_DOCUMENT est une fonction spécifique à la tâche Cortex AI qui vous donne la possibilité d’extraire du texte ou de la mise en page à partir de documents stockés dans une zone de préparation interne ou externe. PARSE_DOCUMENT combine de puissantes capacités de reconnaissance optique de caractères (OCR) avec des modèles de machine learning pour identifier le contenu du texte, les informations stockées dans les tables et les éléments structurels de documents PDF. Vous pouvez utiliser la fonction PARSE_DOCUMENT permettant d’extraire du texte et la mise en page du document pour créer des systèmes de recherche d’informations sur de grandes archives de documents commerciaux et pour charger les informations extraites dans des tables Snowflake structurées à utiliser par vos applications.
Comment fonctionne Parse Document¶
La fonction PARSE_DOCUMENT propose les modes OCR (par défaut) et LAYOUT pour le traitement des documents PDF.
Le mode PARSE_DOCUMENT OCR (par défaut) est optimisé pour l’extraction de texte à partir de documents contenant beaucoup de texte. Il s’agit de l’option recommandée pour une extraction de texte rapide, facile et efficace à partir de documents qui n’ont pas une structure sémantique forte.
Le mode PARSE_DOCUMENT LAYOUT (facultatif) est optimisé pour l’extraction de texte et d’éléments de mise en page tels que des tables. Il s’agit de l’option recommandée pour améliorer le contexte d’une base de connaissances documentaires afin d’optimiser les systèmes de recherche d’informations et l’inférence du Large Language Model (LLM). Par exemple, vous pouvez isoler des sections de texte en utilisant les éléments LAYOUT pour des tâches d’extraction d’entités plus ciblées.
Utilisation de Parse Document¶
La fonction Cortex PARSE_DOCUMENT est une fonction SQL. Parce qu’elle est entièrement hébergée et gérée par Snowflake, son utilisation ne nécessite aucune configuration. Cela signifie que vous pouvez pointer la fonction PARSE_DOCUMENT à une zone de préparation où les documents PDF sont stockés pour extraire du texte ou des données de mise en page. L’exemple suivant extrait le texte et les informations de mise en page du fichier document_1.pdf
sur la zone de préparation documents
de la base de données parse_document
et du schéma demo
.
Note
PARSE_DOCUMENT est actuellement incompatible avec les politiques de réseau personnalisées.
SELECT
SNOWFLAKE.CORTEX.PARSE_DOCUMENT(
@parse_document.demo.documents,
'document_1.pdf',
{'mode': 'LAYOUT'}
) AS layout;
PARSE_DOCUMENT prend en charge le traitement des documents stockés dans une zone de préparation Snowflake interne ou une zone de préparation externe. En créant votre zone de préparation, le Chiffrement côté serveur est requis. Sinon, PARSE_DOCUMENT renverra une erreur indiquant que le fichier fourni n’est pas au format attendu ou est chiffré côté client.
CREATE STAGE input_stage
DIRECTORY = ( ENABLE = true )
ENCRYPTION = ( TYPE = 'SNOWFLAKE_SSE' );
Exigences en matière d’entrées¶
La fonction PARSE_DOCUMENT Cortex est actuellement optimisée pour les documents créés numériquement et non numérisés à partir d’une copie papier. La table suivante répertorie les limitations et les exigences relatives au document d’entrée :
Taille maximale du fichier |
100 MB |
Nombre maximal de pages par document |
100 pages |
Type de fichier autorisé |
|
Chiffrement de zone de préparation |
Chiffrement côté serveur |
Note
PARSE_DOCUMENT n’est actuellement pas optimisé pour les langues qui utilisent des caractères non latins, comme le chinois, le japonais et le thaï. Le français, le portugais, l’italien, l’allemand, l’espagnol, le suédois et le norvégien sont pris en charge en avant-première et sont en cours d’optimisation.
Fonctionnalité clé¶
Fonction |
Description |
---|---|
Orientation de la page |
PARSE_DOCUMENT détecte automatiquement l’orientation de la page. |
Caractères |
Le document PARSE détecte les caractères suivants :
|
Langues |
PARSE_DOCUMENT est optimisé pour l’anglais. Il prend également en charge le français, le portugais, l’italien, l’allemand, l’espagnol, le suédois et le norvégien en avant-première. |
Disponibilité régionale¶
La prise en charge de cette fonctionnalité est disponible pour les comptes dans les régions Snowflake suivantes :
AWS |
Azure |
---|---|
US Ouest 2 (Oregon) |
Est US 2 (Virginie) |
US East (Ohio) |
Europe de l’Ouest (Pays-Bas) |
US East 1 (N. du Nord) |
|
Europe (Irlande) |
|
Europe Central 1 (Francfort) |
Exigences en matière de contrôle d’accès¶
Pour utiliser la fonction PARSE_DOCUMENT, un utilisateur ayant un rôle ACCOUNTADMIN doit accorder le rôle de base de données SNOWFLAKE.CORTEX_USER à l’utilisateur qui appellera la fonction. Consultez la rubrique Privilèges requis pour plus de détails.
Considérations relatives aux clients¶
La fonction Cortex PARSE_DOCUMENT n’entraîne pas de frais de calcul pour le traitement des documents pendant cet aperçu. Une facturation ultérieure évoluant au fur et à mesure du traitement des documents est prévue.
Même s’il n’y a aucun coût de calcul pendant l’aperçu, vous devez choisir un entrepôt pour exécuter la requête qui appelle la fonction. Snowflake recommande d’exécuter les requêtes qui appellent la fonction Cortex PARSE_DOCUMENT avec un entrepôt plus petit (pas plus grand que MEDIUM), car les entrepôts plus grands n’augmentent pas les performances.
Conditions d’erreur¶
Snowflake Cortex PARSE_DOCUMENT peut produire les messages d’erreur suivants.
Message |
Explication |
---|---|
Le fichier fourni n’est pas au format attendu. Assurez-vous que le fichier est un PDF. |
Renvoyé lorsque le document n’est pas un PDF valide. |
Nombre maximum de 100 pages dépassé. |
Renvoyé lorsque le PDF contient plus de 100 pages. |
La taille maximale du fichier de 104857600 octets a été dépassée. |
Renvoyé lorsque le document est supérieur à 100 MB. |
Le fichier fourni ne peut pas être trouvé ou consulté. |
Le fichier n’existe pas. |
Erreur interne. |
Une erreur système s’est produite. Attendez et réessayez. |
Incorporation de PARSE_DOCUMENT dans les pipelines RAG¶
La génération augmentée par récupération (RAG) est une technique permettant de récupérer des données à partir d’une base de connaissances pour améliorer la réponse générée par un LLM. La qualité et le contexte du contenu extrait de divers documents sont fondamentaux pour les performances de récupération dans un système de recherche de documents. Le mode PARSE_DOCUMENT LAYOUT vous permet d’implémenter facilement une extraction de contenu avancée qui maintient l’intégrité structurelle d’un document, vous permettant de diviser facilement le texte en unités de texte concises et autonomes. Cela vous donne en retour la possibilité d’implémenter un découpage sémantique au lieu de vous fier à des divisions de caractères arbitraires, ainsi que d’exécuter des questions-réponses ciblées et des résumés.
Avis juridiques¶
La classification des données d’entrées et de sorties est présentée dans la table suivante.
Classification des données d’entrée |
Classification des données de sortie |
Désignation |
---|---|---|
Usage Data |
Customer Data |
Preview AI Features [1] |
Pour plus d’informations, reportez-vous à Snowflake AI et ML.