Cortex AI Functions: Audio¶
O Cortex AI Audio oferece recursos avançados de processamento de áudio baseados em LLM, incluindo:
Transcrição: converta linguagem falada em texto.
Identificação do locutor: determine quem está falando em cada parte de um arquivo de áudio de vários locutores.
Extração de carimbo de data/hora: identifique o carimbo de data/hora de cada palavra falada.
Esses recursos estão disponíveis por meio da função AI_TRANSCRIBE. Como a AI_TRANSCRIBE é gerenciada e hospedada no Snowflake, você pode integrar facilmente o processamento de áudio aos fluxos de trabalho de dados sem configuração ou gerenciamento de infraestrutura onerosos.
Nota
A função AI_TRANSCRIBE também processa faixas de áudio em arquivos de vídeo.
AI_TRANSCRIBE¶
AI_TRANSCRIBE é uma função SQL totalmente gerenciada que transcreve arquivos de áudio e vídeo armazenados em uma área de preparação, extraindo texto, carimbos de data/hora e informações do locutor. Consulte Criar área de preparação para arquivos de mídia para obter informações sobre como criar uma área de preparação adequada para armazenar arquivos para processamento por AI_TRANSCRIBE.
Nos bastidores, AI_TRANSCRIBE orquestra modelos de AI otimizados para transcrição e diarização de locutores, processando arquivos de áudio com até duas horas de duração. AI_TRANSCRIBE é escalável horizontalmente, permitindo o processamento em lote eficiente de vários arquivos ao mesmo tempo. O áudio pode ser processado diretamente do armazenamento de objetos para evitar movimentação de dados desnecessária.
Por padrão, a AI_TRANSCRIBE converte arquivos de áudio em texto limpo e legível. Você também pode especificar uma granularidade de carimbos de data/hora para extraí-los para cada palavra ou alteração de locutor. Os carimbos de data/hora no nível da palavra são úteis para aplicativos, como de legendas, ou para permitir que o usuário pule para partes específicas do áudio clicando nas palavras da transcrição. Os carimbos de data/hora no nível do locutor são úteis para saber quem disse o quê em reuniões, entrevistas ou telefonemas.
Modo de granularidade do carimbo de data/hora |
Resultado |
|---|---|
Padrão |
Transcrição do arquivo de áudio inteiro em um bloco único |
Palavra |
Transcrição com carimbos de data/hora para cada palavra |
Locutor |
Indica quem está falando, e um carimbo de data/hora, a cada alteração de locutor |
Linguagens compatíveis¶
A AI_TRANSCRIBE oferece suporte aos seguintes idiomas, que são detectados automaticamente. Os arquivos podem conter vários idiomas com suporte.
Nota
A detecção de idioma exige que o áudio comece dentro dos primeiros cinco segundos do arquivo. Para obter melhores resultados, reduza o excesso de silêncio antes do carregamento.
Árabe
Búlgaro
Cantonês
Catalão
Chinês
Tcheco
Holandês
Inglês
Francês
Alemão
Grego
Hebraico
Hindi
Húngaro
Indonésio
Italiano
Japonês
Coreano
Letão
Malay
Norueguês
Polonês
Português
Romeno
Russo
Sérvio
Esloveno
Espanhol
Sueco
Tailandês
Turco
Ucraniano
Formatos de mídia compatíveis¶
AI_TRANSCRIBE é compatível com os seguintes formatos de arquivo de áudio e vídeo:
Áudio |
FLAC, MP3, MP4, OGG, WAV, WEBM |
|---|---|
Vídeo |
FLAC, MP3, OGG, WAV |
Os arquivos de vídeo devem conter pelo menos uma faixa de áudio no formato FLAC, MP3, OPUS, VORBIS ou WAV.
Exemplos¶
Transcrição de texto¶
O exemplo a seguir transcreve um arquivo de áudio armazenado na área de preparação financial_consultation, que retorna a transcrição de texto do arquivo inteiro. A função TO_FILE converte o arquivo preparado em referência de arquivo.
Resposta:
Segmentação no nível da palavra com carimbos de data/hora¶
Defina a granularidade do carimbo de data/hora como «palavra» para extrair carimbos de data/hora precisos para cada palavra falada, permitindo transcrições pesquisáveis e navegáveis. Observe que este arquivo de áudio está em espanhol.
Resposta:
Nota
A saída é truncada para brevidade. A saída completa contém um segmento para cada palavra falada no arquivo de áudio.
Reconhecimento do locutor¶
Defina a granularidade do carimbo de data/hora como «locutor» para detectar, separar e identificar locutores exclusivos em conversas ou reuniões. Este exemplo usa um arquivo de áudio com dois locutores, um que fala em inglês e outro em espanhol.
Resposta:
Nota
A saída é truncada para brevidade. A saída completa contém um segmento para cada «turno» de conversação no arquivo de áudio.
Use with other AI Functions¶
Análise de transcrição de chamadas¶
You can pass the output of AI_TRANSCRIBE to other AI Functions for further processing. For example, you can use
AI_SUMMARIZE to summarize the transcription, or AI_CLASSIFY to classify the content of the transcription. This example
uses AI_SENTIMENT and AI_COMPLETE to analyze the text transcribed from
customer call audio and provide sentiment on four dimensions
and an assessment of the agent.
Nota
A AI_SENTIMENT analisa apenas texto e não considera características de fala, como tom de voz.
Resposta de AI_SENTIMENT:
Resposta de AI_COMPLETE:
Análise de transcrição de vídeos¶
O exemplo a seguir transcreve um arquivo de vídeo armazenado na área de preparação podcast_videos_S3.
Resposta:
Depois de obter a transcrição, você pode usar AI_COMPLETE para realizar análises adicionais. Este exemplo identifica marcas de varejo mencionadas na conversa para uso em análises de publicidade ou licenciamento.
Resposta
Considerações sobre custo¶
Billing for all AI Functions is based on token consumption. For transcription, each second of audio processed is 50 tokens, regardless of language or segmentation method. A full hour of audio is therefore 180,000 tokens. Assuming that processing a million tokens costs 1.3 credits, and that Snowflake credits cost US $3 each, each hour of audio processed costs about US $0.702. This estimate is subject to change. For current pricing information, see the Snowflake Service Consumption Table.
Nota
A AI_TRANSCRIBE tem uma duração mínima de faturamento de 1 minuto. Os arquivos com menos de 1 minuto ainda são processados, mas são cobrados por 1 minuto. Para processar com eficiência um grande número de arquivos de áudio curtos, considere agrupá-los em um único arquivo e usar carimbos de data/hora para identificar o início e o fim de cada arquivo original na transcrição resultante.