Cortex AI Functions: Audio¶
Cortex AI Audio bietet erweiterte LLM-gestützte Funktionen zur Verarbeitung von Audiodaten, darunter:
Transkription: Wandelt gesprochene Sprache in Text um.
Sprecheridentifizierung: Ermittelt, wer in jedem Teil einer Audiodatei mit mehreren Sprechern spricht.
Zeitstempelextraktion: Identifiziert den Zeitstempel jedes gesprochenen Wortes.
Diese Funktionen sind über die Funktion AI_TRANSCRIBE verfügbar. Da AI_TRANSCRIBE in Snowflake verwaltet und gehostet wird, können Sie die Audioverarbeitung einfach in Ihre Datenworkflows integrieren, ohne aufwändige Einrichtung oder Infrastrukturverwaltung.
Bemerkung
Die AI_TRANSCRIBE-Funktion verarbeitet auch Audiospuren in Videodateien.
AI_TRANSCRIBE¶
AI_TRANSCRIBE ist eine vollständig verwaltete SQL-Funktion, die in einem Stagingbereich gespeicherte Audio- und Videodateien transkribiert und dabei Text, Zeitstempel und Sprecherinformationen extrahiert. Weitere Informationen zum Erstellen eines Stagingbereichs, der zum Speichern von Dateien für die Verarbeitung durch AI_TRANSCRIBE geeignet ist, finden Sie unter Stagingbereich für Mediendateien erstellen.
Im Hintergrund orchestriert AI_TRANSCRIBE optimierte AI-Modelle für die Transkription und Sprecher-Diarisierung und verarbeitet Audiodateien mit einer Länge von bis zu zwei Stunden. AI_TRANSCRIBE ist horizontal skalierbar und ermöglicht so eine effiziente Batchverarbeitung durch die gleichzeitige Verarbeitung mehrerer Dateien. Audiodaten können direkt aus dem Objektspeicher verarbeitet werden, um unnötige Datenbewegungen zu vermeiden.
Standardmäßig konvertiert AI_TRANSCRIBE Audiodateien in sauberen, lesbaren Text. Sie können auch eine Granularität für Zeitstempel angeben, um Zeitstempel für jedes Wort oder jeden Sprecherwechsel zu extrahieren. Zeitstempel auf Wortebene sind nützlich für Anwendungsfälle wie Untertitel oder um es Benutzern zu ermöglichen, zu bestimmten Teilen der Audiodaten zu springen, indem sie auf Wörter im Transkript klicken. Zeitstempel auf Spaltenebene sind nützlich, um zu verstehen, wer was in Sitzungen, Intervallen oder Telefongesprächen gesagt hat.
Modus „Zeitstempel-Granularität“ |
Ergebnis |
|---|---|
Standard |
Transkription der gesamten Audiodatei in einem Stück |
Wort |
Transkript mit Zeitstempeln für jedes Wort |
Sprecher |
Gibt bei jedem Sprecherwechsel an, wer spricht, einschließlich eines Zeitstempels |
Unterstützte Sprachen¶
AI_TRANSCRIBE unterstützt die folgenden Sprachen, die automatisch erkannt werden. Dateien können mehrere unterstützte Sprachen enthalten.
Bemerkung
Die Spracherkennung erfordert, dass Audio innerhalb der ersten fünf Sekunden der Datei beginnt. Die besten Ergebnisse erzielen Sie, wenn Sie vor dem Hochladen überflüssige Pausen entfernen.
Arabisch
Bulgarisch
Kantonesisch
Katalanisch
Chinesisch
Tschechisch
Holländisch
Englisch
Französisch
Deutsch
Griechisch
Hebräisch
Hindi
Ungarisch
Indonesisch
Italienisch
Japanisch
Koreanisch
Lettisch
Malay
Norwegisch
Polnisch
Portugiesisch
Rumänisch
Russisch
Serbisch
Slowenisch
Spanisch
Schwedisch
Thailändisch
Türkisch
Ukrainisch
Unterstützte Medienformate¶
AI_TRANSCRIBE unterstützt die folgenden Audio- und Videodateiformate:
Audio |
FLAC, MP3, MP4, OGG, WAV, WEBM |
|---|---|
Video |
FLAC, MP3, OGG, WAV |
Videodateien müssen mindestens eine Audiodatei im FLAC, MP3-, OPUS-, VORBIS- oder WAV-Format enthalten.
Beispiele¶
Texttranskription¶
Im diesem Beispiel wird eine Audiodatei, die im Stagingbereich financial_consultation gespeichert ist, transkribiert. Daraufhin wird ein Texttranskript der gesamten Datei zurückgegeben. Die TO_FILE-Funktion konvertiert die Stagingdatei in eine Dateireferenz.
Antwort:
Segmentierung auf Wortebene mit Zeitstempeln¶
Legen Sie die Zeitstempel-Granularität auf „Wort“ fest, um genaue Zeitstempel für jedes gesprochene Wort zu extrahieren und so durchsuchbare, navigierbare Transkripte zu ermöglichen. Beachten Sie, dass dieser Audiodatei in Spanisch vorliegt.
Antwort:
Bemerkung
Die Ausgabe wurde der Kürze halber abgeschnitten. Die vollständige Ausgabe enthält ein Segment für jedes in der Datei gesprochene Wort.
Sprechererkennung¶
Legen Sie die Zeitstempel-Granularität auf „Sprecher“ fest, um einzelne Sprecher in Konversationen oder Sitzungen zu erkennen, zu trennen und zu identifizieren. Dieses Beispiel verwendet eine Audiodatei, eine Datei mit zwei Sprechern, von denen einer Englisch und der andere Spanisch spricht.
Antwort:
Bemerkung
Die Ausgabe wurde der Kürze halber abgeschnitten. Die vollständige Ausgabe enthält ein Segment für jeden Gesprächswechsel in der Audiodatei.
Use with other AI Functions¶
Analyse von Gesprächstranskripten¶
You can pass the output of AI_TRANSCRIBE to other AI Functions for further processing. For example, you can use
AI_SUMMARIZE to summarize the transcription, or AI_CLASSIFY to classify the content of the transcription. This example
uses AI_SENTIMENT and AI_COMPLETE to analyze the text transcribed from
customer call audio and provide sentiment on four dimensions
and an assessment of the agent.
Bemerkung
AI_SENTIMENT analysiert nur Text und berücksichtigt keine Sprachmerkmale wie den Tonfall.
Antwort von AI_SENTIMENT:
Antwort von AI_COMPLETE:
Analyse von Videotranskripten¶
Im folgenden Beispiel wird ein Transkript einer Videodatei generiert, die im podcast_videos_S3-Stagingbereich gespeichert ist.
Antwort:
Sobald Sie das Transkript haben, können Sie mit AI_COMPLETE zusätzliche Analysen ausführen. Dieses Beispiel identifiziert im Gespräch erwähnte Einzelhandelsmarken zur Verwendung in Werbe- oder Sponsoringanalysen.
Antwort
Hinweise zu Kosten¶
Billing for all AI Functions is based on token consumption. For transcription, each second of audio processed is 50 tokens, regardless of language or segmentation method. A full hour of audio is therefore 180,000 tokens. Assuming that processing a million tokens costs 1.3 credits, and that Snowflake credits cost US $3 each, each hour of audio processed costs about US $0.702. This estimate is subject to change. For current pricing information, see the Snowflake Service Consumption Table.
Bemerkung
Für AI_TRANSCRIBE gilt eine Mindestabrechnungsdauer von 1 Minute. Dateien, die kürzer als 1 Minute sind, werden trotzdem verarbeitet, jedoch mit 1 Minute abgerechnet. Um eine große Anzahl kurzer Audiodateien effizient zu verarbeiten, sollten Sie in Erwägung ziehen, diese Dateien als Batch in eine einzige Datei zusammenzufassen und Zeitstempel zu verwenden, um den Anfang und das Ende jeder Originaldatei in der resultierenden Transkription zu identifizieren.