Document AI¶
Qu’est-ce que Document AI ?¶
Document AI est une fonction d’AI de Snowflake qui utilise Arctic-TILT, un grand modèle de langage propriétaire (LLM), pour extraire des données de documents. Document AI traite des documents de différents formats et extrait des informations à la fois des paragraphes à forte teneur en texte et du contenu sous une forme graphique, comme des logos, du texte écrit à la main (signatures) ou des coches. Avec Document AI, vous pouvez préparer des pipelines pour le traitement continu de nouveaux documents d’un type spécifique, tels que des factures ou des instructions financières.
Document AI fournit à la fois l’extraction du point zéro et la mise au point. Zero-shot signifie que le modèle de fondation peut localiser et extraire des informations spécifiques à un type de document, même si le modèle n’a jamais vu le document auparavant. Cela s’explique par le fait que le modèle de base est entraîné sur un grand volume de documents divers, de sorte que le modèle comprend de façon globale le type de document traité.
En outre, vous pouvez affiner le modèle Snowflake Arctic-TILT pour améliorer vos résultats en entraînant le modèle sur les documents spécifiques à votre cas. Le modèle mis au point (y compris les données d’entraînement utilisées) n’est disponible que pour vous et n’est pas partagé avec d’autres clients de Snowflake.
Quand utiliser Document AI ?¶
Document AI est mieux utilisé lorsque :
Vous souhaitez transformer des données non structurées provenant de documents en données structurées dans des tables.
Vous souhaitez créer des pipelines pour le traitement continu de nouveaux documents d’un type spécifique.
Les utilisateurs professionnels ayant des connaissances dans le domaine préparent le modèle et les ingénieurs de données travaillant avec SQL préparent des pipelines pour automatiser le traitement des nouveaux documents.
Fonctionnement de Document AI¶
Travailler avec Document AI est divisé en deux phases :
Préparation d’une version intermédiaire du modèle Document AI
Vous pouvez considérer que la version intermédiaire du modèle représente un seul type de document ou un cas d’utilisation ; par exemple, une version intermédiaire du modèle pour l’extraction d’informations à partir de documents de facturation. La version intermédiaire du modèle Document AI comprend le modèle, les valeurs de données à extraire et les documents chargés pour tester et entraîner le modèle.
Vous préparez la version intermédiaire du modèle via une interface utilisateur Document AI dans Snowsight. L’interface vous permet de créer une version intermédiaire du modèle, de télécharger des documents pour tester et former le modèle, de définir des valeurs de données (informations à extraire) en posant des questions en langage naturel, d’évaluer le modèle et de publier la version intermédiaire du modèle ou d’affiner le modèle pour améliorer les résultats.
Pour plus d’informations, voir Préparer une version intermédiaire du modèle Document AI.
Extractions d’informations à l’aide de documents
Lorsque la version intermédiaire du modèle est prête, vous pouvez commencer à extraire des informations à partir de documents en exécutant une requête d’extraction, qui utilise la méthode <nom_de_build_du_modèle>!PREDICT. Vous pouvez ensuite utiliser la requête d’extraction pour créer des pipelines de traitement continu avec des flux et des tâches.
Pour plus d’informations, voir Extraire des informations avec Document AI.
Note
Les documents à traiter à l’aide de la méthode <nom_de_build_du_modèle>!PREDICT doivent être mis en zone de préparation interne ou externe.
Pour commencer avec Document AI, consultez Tutoriel : créer un pipeline de traitement de documents avec Document AI.
Historique des versions du modèle Document AI¶
Toutes les versions intermédiaires du modèle créées après le 6 août 2024 utilisent une nouvelle version du modèle Arctique-TILT.
Date de sortie de la version du modèle |
Améliorations de la version du modèle |
---|---|
|
|
|
Avis juridiques¶
La classification des données d’entrées et de sorties est présentée dans la table suivante.
Classification des données d’entrée |
Classification des données de sortie |
Désignation |
---|---|---|
Usage Data |
Customer Data |
Covered AI Features [1] |
Pour plus d’informations, reportez-vous à Snowflake AI et ML.