Categorias:: Funções de arquivo (funções de AI)

AI_TRANSCRIBE¶

Transcreve o texto de um arquivo de áudio ou vídeo com carimbos de data/hora e rótulos do locutor opcionais. A função AI_TRANSCRIBE oferece suporte a vários idiomas, e o áudio pode ter mais de um idioma. Os carimbos de data/hora e rótulos do palestrante são extraídos com base na granularidade do carimbo de data/hora especificada, conforme mostrado na tabela abaixo.


Granularidade do carimbo de data/hora	Resultado
Padrão	Transcrição de todo o arquivo de áudio em uma só parte
Palavra	Transcrição com carimbos de data/hora para cada palavra
Orador	Indica quem está falar e um carimbo de data/hora, em cada alteração de palestrante

Sintaxe¶

AI_TRANSCRIBE( <audio_file> [ , <options> ] [, <return_error_details> ] )

Argumentos¶

Obrigatório:

audio_file: Um objeto do tipo FILE representando um arquivo de áudio. Use a função TO_FILE para criar uma referência ao seu arquivo preparado.

Opcional:

options

Um valor OBJECT contendo zero ou mais dos seguintes campos.

timestamp_granularity: uma string especificando a granularidade de carimbo de data/hora desejada. Os valores possíveis são:
- "word": o arquivo é transcrito como uma série de palavras, cada uma com seu próprio carimbo de data/hora.
- "speaker": o arquivo é transcrito como uma série de «turnos» de conversação, cada um com o próprio carimbo de data/hora e rótulo do falante.
Se esse campo não for especificado, todo o arquivo será transcrito como um único segmento sem carimbos de data/hora por padrão.

return_error_details

Um sinalizador BOOLEAN que indica se os detalhes do erro devem ser retornados em caso de erro. Quando definido como TRUE, a função retorna um OBJECT que contém o valor e a mensagem de erro, sendo um deles NULL dependendo se a função foi bem-sucedida ou falhou. Consulte Comportamento de erro para obter detalhes.

Retornos¶

Uma string contendo uma representação JSON do resultado da transcrição. O objeto JSON contém os seguintes campos:

"audio_duration": a duração total do arquivo de áudio em segundos.
"text": a transcrição do arquivo de áudio completo, fornecida quando o campo timestamp_granularity não é especificado.
"segments": uma matriz de segmentos, fornecida quando o campo timestamp_granularity está definido como "word" ou "speaker". Cada segmento é um objeto JSON contendo os seguintes campos:
- "start": a hora de início do segmento em segundos.
- "end": a hora final do segmento em segundos.
- "text": o texto de transcrição para o segmento.
- "speaker_label": o rótulo do palestrante para o segmento, fornecido quando o campo timestamp_granularity está definido como speaker. Os rótulos são da forma “SPEAKER_00», «SPEAKER_01”, etc. e são atribuídos na ordem que os colunas são detectados no arquivo de áudio.

Comportamento em caso de erro¶

Por padrão, se AI_TRANSCRIBE não puder processar a entrada, a função retornará NULL. Se a consulta processar várias linhas, as linhas com erros retornarão NULL e não impedirão a conclusão da consulta.

O valor de retorno em caso de erro depende do argumento return_error_details. A tabela a seguir mostra o valor de retorno com base no argumento return_error_details:

return_error_details

Valor de retorno

Descrição

FALSE

Não passado

NULL

TRUE

OBJECT com campos value e error

value: Um valor VARCHAR contendo o resultado da transcrição, ou NULL se ocorreu um erro.

error: um valor VARCHAR que contém a mensagem de erro se ocorreu um erro ou NULL se a função foi bem-sucedida.

`return_error_details`	Valor de retorno	Descrição
FALSE Não passado	NULL
TRUE	OBJECT com campos `value` e `error`	`value`: Um valor VARCHAR contendo o resultado da transcrição, ou NULL se ocorreu um erro. `error`: um valor VARCHAR que contém a mensagem de erro se ocorreu um erro ou NULL se a função foi bem-sucedida.

Para obter mais informações sobre o tratamento de erros para funções de AI, consulte Snowflake Cortex AI Function: Multirow error handling improvements.

Requisitos de controle de acesso¶

Os usuários devem usar uma função que tenha a função do banco de dados SNOWFLAKE.CORTEX_USER. Consulte Privilégios de LLM do Cortex para obter mais informações sobre essa função.

Notas de uso¶

Para obter uma lista de idiomas compatíveis, consulte Idiomas compatíveis

Os idiomas suportados são detectados automaticamente. Um arquivo pode conter vários idiomas, cada um dos quais é reconhecido e transcrito. Para uma detecção precisa do idioma, a fala deve começar nos primeiros cinco segundos do arquivo.
A função AI_TRANSCRIBE é compatível com os seguintes formatos de arquivo de áudio e vídeo:

Áudio

FLAC, MP3, MP4, OGG, WAV, WEBM

Vídeo

MKV, MP4, OGV, WEBM

Os arquivos de vídeo devem conter pelo menos uma faixa de áudio no formato FLAC, MP3, OPUS, VORBIS ou WAV.

Fatores como taxa de amostragem, profundidade de bits e número de canais não afetam a transcrição, mas poderão deixar o arquivo muito grande para processamento se forem muito altos. Internamente, AI_TRANSCRIBE usa áudio monofônico a 16 KHz e reamostra os arquivos de entrada quando eles ainda não estão nesse formato.
O tamanho máximo do arquivo de áudio é 700 MB.
A duração máxima do arquivo de áudio é de 60 minutos quando a granularidade do carimbo de data/hora está definida como “palavra” ou “orador”. Se a granularidade do carimbo de data/hora não for usada, a duração máxima é de 120 minutos.

Áudio	FLAC, MP3, MP4, OGG, WAV, WEBM
Vídeo	MKV, MP4, OGV, WEBM

Exemplos¶

Para exemplos, consulte Exemplos de áudio de AI.

Solução de problemas¶

Se a função falhar, ela gerará um erro. As mensagens de erro comuns incluem:


Mensagem de erro	Situação e solução
Objeto de opções inválidas	A opção fornecida para o campo `timestamp_granularity`, se fornecido, deve ser «palavra» ou «professor».
Sem resposta do servidor	O arquivo de áudio não pode ser recuperado, talvez por causa de um URL com escopo expirado.
Arquivo grande demais. O tamanho máximo é 734.003.200 bytes, o arquivo excede este limite.	O arquivo de áudio fornecido excede o tamanho máximo de arquivo.
Formato de arquivo inválido. Somente arquivos [“flac”, “mp3”, “ogg”, “wav”, “webm”] são compatíveis, ou o arquivo WebM não contém um fluxo de áudio.	O arquivo de áudio não é um dos formatos suportados, que estão listados na mensagem de erro. Arquivos WebM oferecem suporte a vários tipos de mídia, portanto, certifique-se de que o arquivo contenha um fluxo de áudio. Se o arquivo estiver em um formato suportado, verifique se ele não está corrompido.
O arquivo ficará muito grande após uma nova amostragem para 16.000 Hertz. O tamanho esperado é 3.355.444.448.000,0 bytes.	O arquivo de áudio fornecido é muito grande após a reamostragem para 16 KHz. Se o áudio fornecido tiver uma taxa de amostragem menor, seu tamanho reamostrado será maior do que o original e poderá exceder o tamanho máximo de arquivo permitido.
Duração do áudio muito longa: 6052,10 segundos. Máximo permitido: 3600 segundos. ou Duração do áudio muito longa: 7335,28 segundos Máximo permitido: 7200 segundos.	O arquivo de áudio fornecido é muito longo. Se você estiver usando a granularidade de carimbo de data/hora, a duração máxima é de 60 minutos (3600 segundos).
Linguagem detectada não suportada	O arquivo de áudio contém um idioma não compatível com AI_TRANSCRIBE.

Disponibilidade regional¶

AI_TRANSCRIBE está disponível nas seguintes regiões:

AWS US West 2 (Oregon)
AWS US East 1 (N. Virginia)
AWS EU Central 1 (Frankfurt)
Azure East US 2 (Virginia)

Avisos legais¶

Consulte AI e ML Snowflake.