Cortex AI Functions: Audio¶
Cortex AI 오디오는 고급 LLM 기반 오디오 처리 기능을 제공하며, 다음을 포함합니다.
전사: 말한 내용을 텍스트로 변환합니다.
화자 식별: 다중 화자 오디오 파일의 각 부분에서 누가 말하고 있는지 판단합니다.
타임스탬프 추출: 발화된 각 단어의 타임스탬프를 식별합니다.
이러한 기능은 AI_TRANSCRIBE 함수를 통해 사용할 수 있습니다. AI_TRANSCRIBE는 Snowflake 내에서 관리 및 호스팅되므로, 번거로운 설정이나 인프라 관리 없이도 오디오 처리를 데이터 워크플로에 손쉽게 통합할 수 있습니다.
참고
AI_TRANSCRIBE 함수는 비디오 파일의 오디오 트랙도 처리합니다.
AI_TRANSCRIBE¶
/sql-reference/functions/ai_transcribe`는 완전 관리형 SQL 함수로, 스테이지에 저장된 오디오 및 비디오 파일을 전사하여 텍스트, 타임스탬프, 화자 정보를 추출합니다. AI_TRANSCRIBE에서 처리할 파일을 저장하기에 적합한 스테이지를 만드는 방법에 대한 정보는 :ref:`label-cortex_llm_media_files 섹션을 참조하세요.
내부적으로 AI_TRANSCRIBE는 전사 및 화자 분리에 최적화된 AI 모델을 조정하여 최대 2시간 길이의 오디오 파일을 처리합니다. AI_TRANSCRIBE는 수평적으로 확장 가능하여 여러 파일을 동시에 처리함으로써 효율적인 일괄 처리가 가능합니다. 오디오는 불필요한 데이터 이동을 피하기 위해 오브젝트 저장소에서 직접 처리될 수 있습니다.
기본적으로 AI_TRANSCRIBE는 오디오 파일을 깔끔하고 읽기 쉬운 텍스트로 변환합니다. 또한 각 단어 또는 화자 변경에 대한 타임스탬프를 추출하기 위해 타임스탬프 세분성을 지정할 수 있습니다. 단어 단위 타임스탬프는 자막과 같은 애플리케이션이나 사용자가 대본에서 단어를 클릭하여 오디오의 특정 부분으로 이동하도록 하는 데 유용합니다. 화자 수준 타임스탬프는 회의, 인터뷰 또는 전화 통화에서 누가 어떤 말을 했는지 파악하는 데 유용합니다.
타임스탬프 세분성 모드 |
결과 |
|---|---|
기본값 |
한 번에 전체 오디오 파일 전사 |
단어 |
각 단어에 대한 타임스탬프가 포함된 전사 |
화자 |
화자 변경 시마다 화자와 타임스탬프 표시 |
지원되는 언어¶
AI_TRANSCRIBE는 다음 언어를 지원하며, 자동으로 감지합니다. 파일은 여러 지원 언어를 포함할 수 있습니다.
참고
언어 감지를 사용하려면 파일 시작 후 5초 이내에 오디오가 시작되어야 합니다. 최상의 결과를 위해 업로드 전에 불필요한 무음 부분을 잘라내세요.
아랍어
불가리아어
광둥어
카탈루냐어
중국어
체코어
네덜란드어
영어
프랑스어
독일어
그리스어
히브리어
Hindi
헝가리어
인도네시아어
이탈리아어
일본어
한국어
라트비아어
Malay
노르웨이어
폴란드어
포르투갈어
루마니아어
러시아어
세르비아어
슬로베니아어
스페인어
스웨덴어
태국어
터키어
우크라이나어
지원되는 미디어 형식¶
AI_TRANSCRIBE는 다음과 같은 오디오 및 비디오 파일 형식을 지원합니다.
오디오 |
FLAC, MP3, MP4, OGG, WAV, WEBM |
|---|---|
동영상 |
MKV, MP4, OGV, WEBM |
비디오 파일에는 FLAC, MP3, OPUS, VORBIS 또는 WAV 형식으로 하나 이상의 오디오 트랙이 포함되어야 합니다.
예¶
텍스트 전사¶
다음 예제는 financial_consultation 스테이지에 저장된 :download:`오디오 파일</samples/cortex/audio/consultation.wav>`을 전사하고, 전체 파일의 텍스트 대본을 반환합니다. :doc:`TO_FILE 함수</sql-reference/functions/to_file>`는 스테이징된 파일을 파일 참조로 변환합니다.
응답:
타임스탬프를 포함한 단어 수준 분할¶
타임스탬프 세분성을 “단어”로 설정하여 발화된 모든 단어에 대한 정확한 타임스탬프를 추출함으로써 검색 및 탐색이 가능한 대본을 생성합니다. :download:`이 오디오 파일</samples/cortex/audio/consultation_3_sp.wav>`은 스페인어로 되어 있습니다.
응답:
참고
간결함을 위해 출력이 잘렸습니다. 전체 출력에는 오디오 파일에서 발화된 각 단어에 대한 세그먼트가 포함됩니다.
화자 인식¶
대화나 회의에서 고유한 화자를 감지하고, 분리하고, 식별하기 위해 타임스탬프 세분성을 “화자”로 설정하세요. 이 예제에서는 두 명의 화자가 등장하여 한 명은 영어로, 다른 한 명은 스페인어로 말하는 :download:`오디오 파일</samples/cortex/audio/consultation_5_mix_es_en.wav>`을 사용합니다.
응답:
참고
간결함을 위해 출력이 잘렸습니다. 전체 출력에는 오디오 파일의 각 대화 “턴”에 대한 세그먼트가 포함됩니다.
Use with other AI Functions¶
통화 기록 분석¶
You can pass the output of AI_TRANSCRIBE to other AI Functions for further processing. For example, you can use
AI_SUMMARIZE to summarize the transcription, or AI_CLASSIFY to classify the content of the transcription. This example
uses AI_SENTIMENT and AI_COMPLETE to analyze the text transcribed from
customer call audio and provide sentiment on four dimensions
and an assessment of the agent.
참고
AI_SENTIMENT는 텍스트만을 분석하며, 음성 톤과 같은 음성 특성은 고려하지 않습니다.
AI_SENTIMENT 응답:
AI_COMPLETE 응답:
동영상 대본 분석¶
다음 예에서는 podcast_videos_S3 스테이지에 저장된 `동영상 파일<https://www.youtube.com/watch?v=QEQZs8SLhQE>`_을 전사합니다.
응답:
대본이 있으면 AI_COMPLETE를 사용하여 추가 분석을 수행할 수 있습니다. 이 예에서는 광고 또는 후원 분석에 사용하기 위해 대화에서 언급된 소매 브랜드를 식별합니다.
응답
비용 고려 사항¶
Billing for all AI Functions is based on token consumption. For transcription, each second of audio processed is 50 tokens, regardless of language or segmentation method. A full hour of audio is therefore 180,000 tokens. Assuming that processing a million tokens costs 1.3 credits, and that Snowflake credits cost US $3 each, each hour of audio processed costs about US $0.702. This estimate is subject to change. For current pricing information, see the Snowflake Service Consumption Table.
참고
AI_TRANSCRIBE의 최소 청구 기간은 1분입니다. 1분 미만의 파일도 처리되지만, 1분 단위로 청구됩니다. 대량의 짧은 오디오 파일을 효율적으로 처리하려면, 이를 단일 파일로 일괄 처리하고 타임스탬프를 사용하여 결과 전사에서 각 원본 파일의 시작과 끝을 식별할 수도 있습니다.