Cortex AI Functions: Audio¶
L’audio AI Cortex fournit des fonctionnalités avancées de traitement de l’audio alimentées par LLM dont :
Transcription : Convertir la langue conversationnelle en texte.
Identification du locuteur : déterminer qui parle dans chaque partie d’un fichier son avec plusieurs locuteurs.
Extraction d’horodatage : identifier l’horodatage de chaque mot prononcé.
Ces fonctionnalités sont disponibles via la fonction AI_TRANSCRIBE. parce que AI_TRANSCRIBE est géré et hébergé dans snowflake, vous pouvez facilement intégrer le traitement audio dans vos workflows de données sans configuration ni gestion d’infrastructure coûteuses.
Note
La fonction AI_TRANSCRIBE traite également les pistes audio des fichiers vidéo.
AI_TRANSCRIBE¶
AI_TRANSCRIBE est une fonction SQL entièrement gérée qui transcrit les fichiers audio et vidéo stockés dans une zone de préparation, en extrayant du texte, des horodatages et des informations sur le locuteur. Voir Créer une zone de préparation pour des fichiers médias pour des informations sur la création d’une zone de préparation adaptée au stockage de fichiers pour un traitement par AI_TRANSCRIBE.
Dans les coulisses, AI_TRANSCRIBE orchestre les modèles AI optimisés pour la transcription et la diarisation des locuteurs, traitant des fichiers audio d’une durée maximale de deux heures. AI_TRANSCRIBE est évolutif horizontalement, ce qui permet un traitement par lots efficace en traitant plusieurs fichiers à la fois. L’audio peut être traité directement à partir du stockage d’objets pour éviter tout mouvement inutile de données.
Par défaut, AI_TRANSCRIBE convertit les fichiers audio en texte propre et lisible. Vous pouvez également spécifier une granularité d’horodatage afin d’extraire des horodatages pour chaque mot ou changement de locuteur. Les horodatages au niveau des mots sont utiles pour les applications telles que les sous-titres ou pour permettre à l’utilisateur de passer à des parties spécifiques de l’enregistrement en cliquant sur des mots dans la transcription. Les horodatages au niveau du locuteur sont utiles pour comprendre qui a dit quoi dans les réunions, les entretiens ou les appels téléphoniques.
Mode de granularité de l’horodatage |
Résultat |
|---|---|
Par défaut |
Transcription de l’intégralité du fichier audio en une seule fois |
Mot |
Transcription avec des horodatages pour chaque mot |
Locuteur |
Indique qui parle, et un horodatage, à chaque changement de locuteur |
Langues acceptées¶
AI_TRANSCRIBE prend en charge les langues suivantes, qui sont automatiquement détectées. Les fichiers peuvent contenir plusieurs langues prises en charge.
Note
La détection de la langue nécessite que l’audio commence dans les cinq premières secondes du fichier. Pour de meilleurs résultats, supprimez les silences excessifs avant le chargement.
Arabe
Bulgare
Cantonais
Catalan
Chinois
Tchèque
Néerlandais
Anglais
Français
Allemand
Grec
Hébreu
Hindi
Hongrois
Indonésien
Italien
Japonais
Coréen
Letton
Malay
Norvégien
Polonais
Portugais
Roumain
Russe
Serbe
Slovène
Espagnol
Suédois
Thaïlandais
Turc
Ukrainien
Formats média pris en charge¶
AI_TRANSCRIBE prend en charge les formats de fichiers audio et vidéo suivants :
Audio |
FLAC, MP3, MP4, OGG, WAV, WEBM |
|---|---|
Vidéo |
FLAC, MP3, OGG, WAV |
Les fichiers vidéo doivent contenir au moins une piste audio en format FLAC, MP3, OPUS, VORBIS ou WAV.
Exemples¶
Transcription de texte¶
l’exemple suivant transcrit :download :un fichier audio </samples/cortex/audio/consultation.wav> stocké dans la zone de préparation financial_consultation, renvoyant une transcription textuelle de l’ensemble du fichier. La fonction TO_FILE convertit le fichier en zone de préparation en une référence de fichier.
Réponse :
Segmentation au niveau des mots avec horodatages¶
Définissez la granularité de l’horodatage sur « mot » pour extraire des horodatages précis pour chaque mot prononcé, permettant ainsi des transcriptions interrogeables et navigables. Notez que ce fichier audio est en espagnol.
Réponse :
Note
La sortie est tronquée par souci de brièveté. La sortie complète contient un segment pour chaque mot mentionné dans le fichier audio.
Reconnaissance du locuteur¶
Définissez la granularité de l’horodatage sur « locuteur » pour détecter, séparer et identifier des locuteurs uniques dans les conversations ou les réunions. cet exemple utilise un fichier audio un fichier audio avec deux locuteurs, l’un parlant en anglais et l’autre en espagnol.
Réponse :
Note
La sortie est tronquée par souci de brièveté. La sortie complète contient un segment pour chaque « tour » conversationnel dans le fichier audio.
Use with other AI Functions¶
Analyse de la transcription des appels¶
You can pass the output of AI_TRANSCRIBE to other AI Functions for further processing. For example, you can use
AI_SUMMARIZE to summarize the transcription, or AI_CLASSIFY to classify the content of the transcription. This example
uses AI_SENTIMENT and AI_COMPLETE to analyze the text transcribed from
customer call audio and provide sentiment on four dimensions
and an assessment of the agent.
Note
AI_SENTIMENT analyse uniquement le texte et ne prend pas en compte les caractéristiques de la langue telles que le ton de la voix.
Réponse AI_SENTIMENT :
Réponse AI_COMPLETE :
Analyse de la transcription des vidéos¶
L’exemple suivant transcrit un fichier vidéo stocké dans la zone de préparation podcast_videos_S3.
Réponse :
Une fois que vous avez la transcription, vous pouvez utiliser AI_COMPLETE pour effectuer une analyse supplémentaire. Cet exemple identifie les marques de détail mentionnées dans la conversation à des fins d’analyse publicitaire ou de parrainage.
Réponse
Considérations relatives aux clients¶
Billing for all AI Functions is based on token consumption. For transcription, each second of audio processed is 50 tokens, regardless of language or segmentation method. A full hour of audio is therefore 180,000 tokens. Assuming that processing a million tokens costs 1.3 credits, and that Snowflake credits cost US $3 each, each hour of audio processed costs about US $0.702. This estimate is subject to change. For current pricing information, see the Snowflake Service Consumption Table.
Note
AI_TRANSCRIBE a une durée de facturation minimale de 1 minute. Les fichiers inférieurs à 1 minute sont toujours traités, mais sont facturés comme s’ils duraient 1 minute. Pour traiter efficacement un grand nombre de fichiers audio courts, envisagez de les regrouper dans un seul fichier et utilisez des horodatages pour identifier le début et la fin de chaque fichier original dans la transcription obtenue.