Sarvam AI Speech to Text API
Sarvam AI Speech to Text API는 화자 분할( diarization)과 코드 믹싱(code-mixing) 지원을 통해 22개 인도어로 음성을 텍스트로 변환합니다.
Sarvam AI Speech to Text API 한눈에 보기
- 요금
- 프리미엄
- 주요 강점
- 정확한 코드 믹싱 기능으로 22개 인도어를 지원 · 회의 전사와 인터뷰 분석을 위한 화자 분할 기능 · 다양한 오디오 형식 지원과 강력한 배경 소음 처리 성능
스크린샷
Sarvam AI Speech to Text API 소개
Sarvam AI의 Speech to Text API는 힌디, 벵골어, 타밀어, 텔루구어, 구자라트어, 칸나다어, 말라얄람어, 마라티어, 펀자브어, 오디아어, 그리고 인도식 억양의 영어를 포함한 22개 인도어에서 정확한 전사(transcription)를 제공합니다. Saarika v2 모델을 기반으로 구축된 이 API는 배경 소음, 다중 화자 간섭, 불안정한 네트워크와 같은 까다로운 음성 환경에서도 정확도를 유지하면서 다양한 언어적 요구를 처리합니다.
화자 분할(diarization) 기능은 오디오에서 서로 다른 화자를 자동으로 식별하고 라벨링하여 회의 전사, 인터뷰, 콜센터 분석에 매우 유용합니다. 이 API는 코드 믹싱 처리에서도 뛰어난 성능을 보이며, 힌디어, 영어, 지역어 간의 문장 중간 전환을 자연스럽게 처리합니다. 이는 인도어의 자연스러운 상호작용을 위한 핵심 기능입니다.
이 플랫폼은 MP3, WAV, AAC, OGG, Opus, FLAC, M4A, AMR, WMA, WebM 등 다양한 오디오 형식을 지원하여 다양한 녹음 소스와의 호환성을 보장합니다. 세 가지 API 옵션이 서로 다른 워크플로우를 지원합니다. 30초 미만의 파일용 REST API, 최대 1시간까지의 완전한 화자 분할과 타임스탬프가 가능한 Batch API, 그리고 WebSocket을 통한 실시간 전사를 위한 Streaming API입니다.
개발자 통합과 엔터프라이즈 확장을 위해 설계된 이 API는 인도어 시장의 다국어 음성 애플리케이션을 구축하기 위한 유연하고 프로덕션 환경에 바로 적용 가능한 솔루션을 제공합니다.
장점
단점
Sarvam AI Speech to Text API의 대안
Video to Text.net
autokeyworder
Sleekio
FastlyConvert
VoxTap
Velma Transcribe by Modulate
FastScribeX