Content
# MCP SaluteSpeech
[](https://github.com/trashchenkov/mcp_voice_salute)
MCP SaluteSpeech - это реализация MCP (Model Context Protocol) сервера, предоставляющего инструменты для работы с голосовыми [API SaluteSpeech](https://developers.sber.ru/docs/ru/salutespeech/overview) от Сбера. Позволяет AI ассистентам записывать речь пользователя с микрофона, распознавать её с помощью и синтезировать речь из текста.
Сервер предоставляет доступ агентам на основе LLM к голосовому интерфейсу, значительно расширяя возможности взаимодействия с пользователем.
## Из чего состоит MCP SaluteSpeech?
MCP SaluteSpeech предоставляет два основных инструмента:
1. **sber_stt_record_and_recognize** - записывает аудио с микрофона до появления 3-секундной паузы, отправляет запись на API распознавания речи SaluteSpeech и возвращает распознанный текст.
2. **synthesize_speech** - синтезирует речь из текста с помощью API SaluteSpeech и воспроизводит её через аудиоустройство компьютера.
Эти инструменты особенно полезны для:
- Создания голосовых интерфейсов для AI ассистентов
- Разработки приложений с поддержкой голосового управления
- Интеграции голосовых возможностей в агентные системы на базе LLM
## Возможности
- Реализация голосовых инструментов для MCP (Model Context Protocol)
- Полная интеграция с API SaluteSpeech от Сбера
- Готовность к работе с такими ассистетами как Cursor, Windsurf и другими
- Поддержка распознавания и синтеза русской речи
## Возможные проблемы с аудиоустройствами и дополнительные зависимости
Если запись или воспроизведение аудио не работает "из коробки", возможно, потребуется установить дополнительные зависимости для вашей операционной системы:
- **Linux**: убедитесь, что установлен пакет `portaudio` и соответствующие dev-заголовки. Например, для Ubuntu/Debian:
```sh
sudo apt-get install portaudio19-dev
```
Также может понадобиться установить `alsa-utils`:
```sh
sudo apt-get install alsa-utils
```
- **macOS**: обычно всё работает из коробки, но убедитесь, что приложению даны разрешения на доступ к микрофону и динамикам (Системные настройки → Конфиденциальность → Микрофон/Звук). В некоторых случаях может потребоваться установка PortAudio:
```sh
brew install portaudio
```
- **Windows**: убедитесь, что установлены последние драйверы для вашей звуковой карты. Для работы некоторых библиотек может понадобиться [Microsoft Visual C++ Redistributable](https://learn.microsoft.com/en-us/cpp/windows/latest-supported-vc-redist?view=msvc-170).
Если после установки зависимостей проблема не решена, проверьте сообщения об ошибках в консоли — они могут подсказать, какой компонент отсутствует или требует настройки.
## Настройка MCP сервера
Добавьте этот MCP сервер к вашему агенту.
```json
"mcpServers": {
"mcp-salutespeech": {
"command": "uvx",
"args": [
"--from", "mcp_voice_salute", "mcp-salutespeech"
],
"enabled": true,
"env": {
"SALUTE_SPEECH": "ВАШ_ТОКЕН_SALUTESPEECH"
}
}
}
```
## Описание инструментов
### sber_stt_record_and_recognize
Записывает аудио с микрофона до появления 3-секундной паузы, затем отправляет запись на API распознавания речи SaluteSpeech и возвращает распознанный текст.
**Вход**: Не требует параметров
**Поведение**: Выполняет запись с микрофона, распознавание и возвращает текст
**Выход**: Строка с распознанным текстом
### synthesize_speech
Синтезирует речь из текста с помощью API SaluteSpeech и воспроизводит её через аудиоустройство компьютера.
**Вход**:
- `text` (string) — Текст для преобразования в речь
- `format` (string, опционально) — Формат аудио (по умолчанию "wav16")
- `voice` (string, опционально) — Голос для синтеза (по умолчанию "Bys_24000")
**Поведение**: Преобразует текст в речь и воспроизводит через динамики
**Выход**: Подтверждение успешного воспроизведения
## Как добавить этот MCP сервер в Cursor
Есть два способа добавить MCP сервер в Cursor:
1. **Глобально** - добавить сервер в файл `~/.cursor/mcp.json`
2. **Для проекта** - добавить сервер в файл `.cursor/mcp.json` в вашем проекте
### Требования к окружению
Для работы с API требуется установить переменную окружения:
```
SALUTE_SPEECH - токен Basic авторизации для доступа к API SaluteSpeech
```
## Лицензия
MIT License
You Might Also Like
OpenWebUI
Open WebUI is an extensible web interface for customizable applications.

NextChat
NextChat is a light and fast AI assistant supporting Claude, DeepSeek, GPT4...

cherry-studio
Cherry Studio is a multilingual project for creative collaboration.
Companion
Companion is a utility for testing and debugging MCP servers on macOS, iOS,...
Companion
Companion is a utility for testing MCP servers on macOS, iOS, and visionOS.
Companion
Your neighborhood friendly MCP utility for macOS, iOS, and visionOS