Sarvam AI Speech to Text API

Sarvam AI Speech to Text API transcrit la parole dans 22 langues indiennes avec prise en charge de la diarisation des locuteurs et du code-switching.

Sélectionné par HyperClaw · Mis à jour 2026-04-10

Freemium ✍️ Texte et rédaction 🎬 Vidéo et audio 🎙️ Voix & Parole 🌐 Traduction et langues

Visiter Sarvam AI Speech to Text API

Sarvam AI Speech to Text API en un coup d'œil

Tarifs: Freemium
Points forts: Prise en charge de 22 langues indiennes avec des capacités précises de code-swit · Diarisation des locuteurs pour les transcriptions de réunions et l'analyse d'ent · Prise en charge de plusieurs formats audio et performances robustes face au brui

Captures d'écran

Sarvam AI Speech to Text API screenshot 1

À propos de Sarvam AI Speech to Text API

L'API Speech to Text de Sarvam AI offre une transcription précise dans 22 langues indiennes, notamment le hindi, le bengali, le tamoul, le télougou, le gujarati, le kannada, le malayalam, le marathi, le pendjabi, l'odia et l'anglais avec un accent indien. Basée sur le modèle Saarika v2, elle répond à des besoins linguistiques variés tout en maintenant sa précision même dans des environnements audio difficiles avec du bruit de fond, des conversations croisées et des connexions médiocres. La fonctionnalité de diarisation des locuteurs identifie et étiquette automatiquement les différents intervenants dans un audio, ce qui la rend précieuse pour les transcriptions de réunions, les entretiens et l'analyse de centres d'appels. L'API excelle dans la gestion du code-switching, en gérant de manière fluide les changements en milieu de phrase entre le hindi, l'anglais et les langues régionales — une capacité essentielle pour des interactions naturelles en langues indiennes. La plateforme prend en charge plusieurs formats audio, notamment MP3, WAV, AAC, OGG, Opus, FLAC, M4A, AMR, WMA et WebM, garantissant la compatibilité avec diverses sources d'enregistrement. Trois options d'API s'adaptent à différents flux de travail : API REST pour les fichiers de moins de 30 secondes, API Batch pour le traitement jusqu'à 1 heure avec diarisation complète et horodatages, et API Streaming pour la transcription en temps réel via WebSocket. Conçue pour l'intégration par les développeurs et l'évolutivité en entreprise, l'API fournit une solution flexible et prête pour la production pour créer des applications vocales multilingues sur les marchés des langues indiennes.

Avantages

👍 Prise en charge de 22 langues indiennes avec des capacités précises de code-swit 👍 Diarisation des locuteurs pour les transcriptions de réunions et l'analyse d'ent 👍 Prise en charge de plusieurs formats audio et performances robustes face au brui 👍 Options de traitement en temps réel et par lots avec des points d'API flexibles

Inconvénients

👎 API REST limitée aux fichiers d'une durée inférieure à 30 secondes 👎 Principalement optimisée pour les accents et contextes des langues indiennes 👎 Vitesses de traitement de l'API Batch non spécifiées dans la documentation