Speech to Text: как автоматически перевести речь в текст без программистов
Три простых способа автоматической транскрибации для тех, кто не умеет программировать. От диктовки на телефоне до автоматизации через сервисы без кода.

Введение
Нужно расшифровать аудиозапись, но вы не программист? Современные системы распознавания речи работают тремя способами — от простой диктовки на телефоне до автоматизации через готовые сервисы. Ни один не требует написания кода.
В этом руководстве — 3 способа перевести речь в текст по возрастанию сложности и возможностей.
Для кого эта статья
Эта инструкция для:
- Журналистов — расшифровка интервью
- Менеджеров — протоколы совещаний
- Маркетологов — обработка фокус-групп
- Предпринимателей — анализ звонков клиентов
- Студентов — конспекты лекций
- Создателей контента — текстовые версии подкастов
Способ 1: Мобильные решения
Сложность: Очень просто Время: 1 минута на освоение Подходит для: Быстрых заметок, голосовых сообщений
Вариант А: Диктовка через клавиатуру
Говорите в микрофон — клавиатура превращает речь в текст мгновенно.
Что делать:
- Откройте любое приложение с текстом (заметки, почта, мессенджер)
- Нажмите кнопку микрофона на клавиатуре
- Говорите четко, делайте паузы в конце предложений
- Текст появляется сразу
- Скопируйте или отправьте
Где найти:
- Google Клавиатура (Android) — кнопка микрофона
- Яндекс.Клавиатура (Android/iOS) — голосовой ввод
- iPhone — кнопка диктовки на клавиатуре
Стоимость: Бесплатно.
Вариант Б: Telegram Premium
Все голосовые сообщения автоматически расшифровываются в текст.
Что делать:
- Оформите Telegram Premium в настройках приложения
- Получите или отправьте голосовое сообщение
- Под аудио автоматически появится текст
- Нажмите на текст, чтобы скопировать
Особенности:
- Работает со всеми голосовыми в чатах
- Максимальная длина: 1 час
- Только для голосовых, записанных в Telegram
Стоимость: От 399₽ в месяц.
Плюсы и минусы способа 1
✅ Максимально просто — нажал кнопку и говоришь ✅ Всегда под рукой на телефоне ✅ Диктовка бесплатна ✅ Не требует регистрации
❌ Только для коротких текстов и быстрых заметок ❌ Нельзя загрузить готовый файл с компьютера ❌ Не подходит для длинных встреч или интервью ❌ Не различает нескольких говорящих
Способ 2: Веб-интерфейс
Сложность: Очень просто Время: 2 минуты на освоение Подходит для: Профессиональных задач, готовых файлов
Как работает
Заходите на сайт через браузер, загружаете любой аудио или видеофайл — через 10-15 минут получаете профессиональную расшифровку.
Что делать
- Зайдите на сайт сервиса транскрибации (например, premiss.ru)
- Зарегистрируйтесь — почта и пароль (30 секунд)
- Нажмите "Загрузить файл" и выберите запись
- Настройте параметры:
- Язык записи (русский)
- Разделение по говорящим
- Обезличивание персональных данных (если нужно)
- Нажмите "Начать транскрибацию"
- Скачайте результат в нужном формате: Word, PDF, текст
Что умеет
- Любые форматы: MP3, WAV, M4A, FLAC, MP4, AVI — система конвертирует сама
- Любая длина: от 1 минуты до нескольких часов
- Разделение говорящих: автоматически определяет "Говорящий 1", "Говорящий 2"
- Знаки препинания: расставляются автоматически
- Обезличивание: автоматически удаляет имена, адреса, телефоны (для 152-ФЗ)
Плюсы и минусы способа 2
✅ Работает с любыми готовыми файлами ✅ Профессиональное качество — 95-98% точности ✅ Разделяет говорящих автоматически ✅ Не нужно устанавливать программы ✅ Работает с любого устройства
❌ Нужно подождать обработки ❌ Требует ручной загрузки каждого файла
Стоимость: Первые 2-3 часа бесплатно, далее от 0.60₽ за минуту.
Способ 3: Автоматизация через сервисы без кода
Сложность: Средне Время: 30 минут на настройку Подходит для: Автоматизации процессов, регулярной работы
Как работает
Создаете автоматический сценарий через платформы типа Zapier или Make.com: "Когда приходит файл → автоматически расшифровать → отправить результат в нужное место". Настраивается визуально, без кода.
Что делать
Шаг 1: Выберите платформу автоматизации
Популярные варианты:
- Zapier — самый простой, на русском
- Make.com — больше возможностей
- n8n — для продвинутых пользователей
Шаг 2: Получите доступ к API
- Зайдите на premiss.ru
- В личном кабинете создайте ключ доступа
- Скопируйте ключ (понадобится для настройки)
Шаг 3: Создайте автоматизацию
- Войдите в Zapier или Make.com
- Создайте новый сценарий
- Выберите триггер (что запускает процесс): например, в ВКС появилась новая запись встречи
- Добавьте действие: отправить файл в Premiss API
- Укажите ваш ключ доступа
- Настройте, что делать с результатом:
- Сохранить в Яндекс Таблицы
- Создать документ в Google Docs
- Отправить на почту или в мессенджер
Шаг 4: Протестируйте
Загрузите тестовый файл и проверьте, что всё работает автоматически.
Примеры сценариев
Пример 1: Автоматические протоколы встреч
- Триггер: Запись встречи загружается в Google Drive
- Действие: Транскрибация через Premiss
- Результат: Протокол отправляется участникам на почту
Пример 2: Обработка входящих аудио
- Триггер: Клиент отправляет голосовое в Telegram-бот
- Действие: Автоматическая расшифровка
- Результат: Создается задача в планировщике с текстом
Пример 3: Анализ звонков
- Триггер: Новая запись звонка в папке
- Действие: Транскрибация с разделением по говорящим
- Результат: Текст добавляется в таблицу с аналитикой
Плюсы и минусы способа 3
✅ Полная автоматизация — один раз настроил, работает всегда ✅ Встраивается в существующие рабочие процессы ✅ Обрабатывает прямые ссылки на файлы любого типа ✅ Можно добавить любые действия после расшифровки ✅ Подходит для больших объемов ✅ Не требует программирования — всё визуально
❌ Требует начальной настройки (30-40 минут) ❌ Нужно разобраться в платформе автоматизации ❌ Платформы стоят денег (при больших объемах)
Стоимость:
- Zapier/Make.com: от 1500₽ в месяц (есть бесплатные тарифы с ограничениями)
- Premiss API: от 0.60₽ за минуту аудио
Сравнение всех способов
| Способ | Сложность | Подходит для | Стоимость |
|---|---|---|---|
| Мобильные решения | Очень просто | Быстрые заметки, войсы | 0-399₽/мес |
| Веб-интерфейс | Очень просто | Готовые файлы, встречи | От 0.60₽/мин |
| Автоматизация | Средне | Регулярные процессы, большие объемы | От 1500₽/мес |
Какой способ выбрать
Быстрые заметки и голосовые
Выбирайте: Мобильные решения
Примеры:
- Продиктовать идею или письмо
- Расшифровать голосовое сообщение
- Быстрый конспект
Разовые профессиональные задачи
Выбирайте: Веб-интерфейс
Примеры:
- Расшифровать интервью для статьи
- Протокол важной встречи
- Запись вебинара или лекции
- 5-20 файлов в месяц
Регулярная работа с большим объемом
Выбирайте: Автоматизация
Примеры:
- Ежедневные совещания команды
- Обработка всех звонков менеджеров
- Расшифровка всех входящих аудио
- 50+ файлов в месяц
Советы для лучшего результата
1. Качество записи Тихое помещение, внешний микрофон, проверка громкости. Точность выше на 10-15%.
2. Правильные названия файлов
2025-01-12_интервью_иванов.mp3 вместо audio_154323.mp3
3. Указывайте язык Всегда явно выбирайте русский в настройках — точность выше.
4. Разделение по говорящим Для встреч и интервью обязательно включайте эту функцию.
5. Обезличивание данных При работе с персональными данными клиентов включайте автоматическое удаление (требование 152-ФЗ).
Частые вопросы
Нужно устанавливать программы? Нет. Всё работает через браузер или мобильное приложение.
Работает с видео? Да. Система извлекает звук из видео автоматически.
Какие форматы поддерживаются? Любые аудио и видео: MP3, WAV, M4A, FLAC, OGG, MP4, AVI, MOV, etc.
Сколько времени занимает? Мобильные решения — мгновенно. Автоматизация — 3-5 минут на час аудио.
Насколько точно? На качественных записях до 98%.
Можно автоматизировать без программиста? Да. Платформы типа Zapier работают визуально, код не нужен.
Заключение
Автоматическая транскрибация доступна на трех уровнях:
- Простой → Мобильные решения (для заметок)
- Профессиональный → Веб-интерфейс (для готовых файлов)
- Автоматизация → Сервисы без кода (для процессов)
Выбирайте подходящий уровень под свои задачи. Программирование не требуется ни на одном из них.
Попробуйте бесплатно
Зарегистрируйтесь и получите пробный пакет транскрибации бесплатно — загрузите файл через веб-интерфейс или настройте автоматизацию через API. Работает с любыми форматами, разделяет говорящих, расставляет знаки препинания.


