Поддерживаемые языки

Полный список языков для транскрибации, перевода и других операций — ISO 639-1

Стандарт

Все языковые параметры API (language, language_in, language_out) принимают двухбуквенный код по стандарту ISO 639-1.

Пример
{
  "steps": [
    { "type": "transcribe", "language": "ru" },
    { "type": "translate", "language_in": "ru", "language_out": "en" }
  ]
}

Значение по умолчанию — ru (русский). Если параметр не указан, используется русский язык.

Параметры, использующие языковые коды

ПараметрОперацииОписание
languagetranscribeЯзык аудио для распознавания
language_intranslate, llm, depersonalizeЯзык входных данных
language_outtranslate, llm, depersonalizeЯзык результата

Полный список языков

Распознавание речи (транскрибация) работает на модели Whisper large-v3, которая поддерживает 99 языков. Качество распознавания зависит от языка — наилучшие результаты для языков с большим объёмом обучающих данных.

Высокое качество распознавания

Языки с наибольшим объёмом обучающих данных и наилучшей точностью:

КодЯзыкLanguage
ruРусскийRussian
enАнглийскийEnglish
zhКитайскийChinese
deНемецкийGerman
esИспанскийSpanish
frФранцузскийFrench
itИтальянскийItalian
jaЯпонскийJapanese
koКорейскийKorean
ptПортугальскийPortuguese
nlНидерландскийDutch
plПольскийPolish
trТурецкийTurkish
ukУкраинскийUkrainian
arАрабскийArabic
csЧешскийCzech
daДатскийDanish
fiФинскийFinnish
elГреческийGreek
heИвритHebrew
hiХиндиHindi
huВенгерскийHungarian
idИндонезийскийIndonesian
noНорвежскийNorwegian
roРумынскийRomanian
svШведскийSwedish
thТайскийThai
viВьетнамскийVietnamese

Хорошее качество распознавания

КодЯзыкLanguage
afАфрикаансAfrikaans
bgБолгарскийBulgarian
bnБенгальскийBengali
bsБоснийскийBosnian
caКаталанскийCatalan
cyВаллийскийWelsh
etЭстонскийEstonian
euБаскскийBasque
faПерсидскийPersian
glГалисийскийGalician
hrХорватскийCroatian
isИсландскийIcelandic
kaГрузинскийGeorgian
kkКазахскийKazakh
ltЛитовскийLithuanian
lvЛатышскийLatvian
mkМакедонскийMacedonian
mlМалаяламMalayalam
mnМонгольскийMongolian
mrМаратхиMarathi
msМалайскийMalay
myБирманскийMyanmar
neНепальскийNepali
skСловацкийSlovak
slСловенскийSlovenian
sqАлбанскийAlbanian
srСербскийSerbian
swСуахилиSwahili
taТамильскийTamil
teТелугуTelugu
tlТагальскийTagalog
urУрдуUrdu

Базовое качество распознавания

Для этих языков качество распознавания может быть ниже. Рекомендуем тестировать на ваших данных.

КодЯзыкLanguage
amАмхарскийAmharic
asАссамскийAssamese
azАзербайджанскийAzerbaijani
baБашкирскийBashkir
beБелорусскийBelarusian
brБретонскийBreton
foФарерскийFaroese
guГуджаратиGujarati
haХаусаHausa
htГаитянский креольскийHaitian Creole
hyАрмянскийArmenian
jwЯванскийJavanese
kmКхмерскийKhmer
knКаннадаKannada
laЛатинскийLatin
lbЛюксембургскийLuxembourgish
lnЛингалаLingala
loЛаосскийLao
mgМалагасийскийMalagasy
miМаориMaori
mtМальтийскийMaltese
nnНюнорскNynorsk
ocОкситанскийOccitan
paПанджабиPunjabi
psПуштуPashto
saСанскритSanskrit
sdСиндхиSindhi
siСингальскийSinhala
snШонаShona
soСомалийскийSomali
suСунданскийSundanese
tkТуркменскийTurkmen
ttТатарскийTatar
uzУзбекскийUzbek
woВолофWolof
yiИдишYiddish
yoЙорубаYoruba

Перевод и LLM

Операции translate и llm поддерживают те же языковые коды. Для перевода и обработки текста набор поддерживаемых языков шире, так как LLM-модель работает с большинством языков мира.

Для операций translate и llm поддерживаются все языки ISO 639-1. Для транскрибации — только языки из таблиц выше.