Поддерживаемые языки
Полный список языков для транскрибации, перевода и других операций — ISO 639-1
Стандарт
Все языковые параметры API (language, language_in, language_out) принимают двухбуквенный код по стандарту ISO 639-1.
Значение по умолчанию — ru (русский). Если параметр не указан, используется русский язык.
Параметры, использующие языковые коды
| Параметр | Операции | Описание |
|---|---|---|
language | transcribe | Язык аудио для распознавания |
language_in | translate, llm, depersonalize | Язык входных данных |
language_out | translate, llm, depersonalize | Язык результата |
Полный список языков
Распознавание речи (транскрибация) работает на модели Whisper large-v3, которая поддерживает 99 языков. Качество распознавания зависит от языка — наилучшие результаты для языков с большим объёмом обучающих данных.
Высокое качество распознавания
Языки с наибольшим объёмом обучающих данных и наилучшей точностью:
| Код | Язык | Language |
|---|---|---|
ru | Русский | Russian |
en | Английский | English |
zh | Китайский | Chinese |
de | Немецкий | German |
es | Испанский | Spanish |
fr | Французский | French |
it | Итальянский | Italian |
ja | Японский | Japanese |
ko | Корейский | Korean |
pt | Португальский | Portuguese |
nl | Нидерландский | Dutch |
pl | Польский | Polish |
tr | Турецкий | Turkish |
uk | Украинский | Ukrainian |
ar | Арабский | Arabic |
cs | Чешский | Czech |
da | Датский | Danish |
fi | Финский | Finnish |
el | Греческий | Greek |
he | Иврит | Hebrew |
hi | Хинди | Hindi |
hu | Венгерский | Hungarian |
id | Индонезийский | Indonesian |
no | Норвежский | Norwegian |
ro | Румынский | Romanian |
sv | Шведский | Swedish |
th | Тайский | Thai |
vi | Вьетнамский | Vietnamese |
Хорошее качество распознавания
| Код | Язык | Language |
|---|---|---|
af | Африкаанс | Afrikaans |
bg | Болгарский | Bulgarian |
bn | Бенгальский | Bengali |
bs | Боснийский | Bosnian |
ca | Каталанский | Catalan |
cy | Валлийский | Welsh |
et | Эстонский | Estonian |
eu | Баскский | Basque |
fa | Персидский | Persian |
gl | Галисийский | Galician |
hr | Хорватский | Croatian |
is | Исландский | Icelandic |
ka | Грузинский | Georgian |
kk | Казахский | Kazakh |
lt | Литовский | Lithuanian |
lv | Латышский | Latvian |
mk | Македонский | Macedonian |
ml | Малаялам | Malayalam |
mn | Монгольский | Mongolian |
mr | Маратхи | Marathi |
ms | Малайский | Malay |
my | Бирманский | Myanmar |
ne | Непальский | Nepali |
sk | Словацкий | Slovak |
sl | Словенский | Slovenian |
sq | Албанский | Albanian |
sr | Сербский | Serbian |
sw | Суахили | Swahili |
ta | Тамильский | Tamil |
te | Телугу | Telugu |
tl | Тагальский | Tagalog |
ur | Урду | Urdu |
Базовое качество распознавания
Для этих языков качество распознавания может быть ниже. Рекомендуем тестировать на ваших данных.
| Код | Язык | Language |
|---|---|---|
am | Амхарский | Amharic |
as | Ассамский | Assamese |
az | Азербайджанский | Azerbaijani |
ba | Башкирский | Bashkir |
be | Белорусский | Belarusian |
br | Бретонский | Breton |
fo | Фарерский | Faroese |
gu | Гуджарати | Gujarati |
ha | Хауса | Hausa |
ht | Гаитянский креольский | Haitian Creole |
hy | Армянский | Armenian |
jw | Яванский | Javanese |
km | Кхмерский | Khmer |
kn | Каннада | Kannada |
la | Латинский | Latin |
lb | Люксембургский | Luxembourgish |
ln | Лингала | Lingala |
lo | Лаосский | Lao |
mg | Малагасийский | Malagasy |
mi | Маори | Maori |
mt | Мальтийский | Maltese |
nn | Нюнорск | Nynorsk |
oc | Окситанский | Occitan |
pa | Панджаби | Punjabi |
ps | Пушту | Pashto |
sa | Санскрит | Sanskrit |
sd | Синдхи | Sindhi |
si | Сингальский | Sinhala |
sn | Шона | Shona |
so | Сомалийский | Somali |
su | Сунданский | Sundanese |
tk | Туркменский | Turkmen |
tt | Татарский | Tatar |
uz | Узбекский | Uzbek |
wo | Волоф | Wolof |
yi | Идиш | Yiddish |
yo | Йоруба | Yoruba |
Перевод и LLM
Операции translate и llm поддерживают те же языковые коды. Для перевода и обработки текста набор поддерживаемых языков шире, так как LLM-модель работает с большинством языков мира.
Для операций translate и llm поддерживаются все языки ISO 639-1. Для транскрибации — только языки из таблиц выше.