Content

# MCP SaluteSpeech [![GitHub](https://img.shields.io/badge/github-%23121011.svg?style=for-the-badge&logo=github&logoColor=white)](https://github.com/trashchenkov/mcp_voice_salute) MCP SaluteSpeech - это реализация MCP (Model Context Protocol) сервера, предоставляющего инструменты для работы с голосовыми [API SaluteSpeech](https://developers.sber.ru/docs/ru/salutespeech/overview) от Сбера. Позволяет AI ассистентам записывать речь пользователя с микрофона, распознавать её с помощью и синтезировать речь из текста. Сервер предоставляет доступ агентам на основе LLM к голосовому интерфейсу, значительно расширяя возможности взаимодействия с пользователем. ## Из чего состоит MCP SaluteSpeech? MCP SaluteSpeech предоставляет два основных инструмента: 1. **sber_stt_record_and_recognize** - записывает аудио с микрофона до появления 3-секундной паузы, отправляет запись на API распознавания речи SaluteSpeech и возвращает распознанный текст. 2. **synthesize_speech** - синтезирует речь из текста с помощью API SaluteSpeech и воспроизводит её через аудиоустройство компьютера. Эти инструменты особенно полезны для: - Создания голосовых интерфейсов для AI ассистентов - Разработки приложений с поддержкой голосового управления - Интеграции голосовых возможностей в агентные системы на базе LLM ## Возможности - Реализация голосовых инструментов для MCP (Model Context Protocol) - Полная интеграция с API SaluteSpeech от Сбера - Готовность к работе с такими ассистетами как Cursor, Windsurf и другими - Поддержка распознавания и синтеза русской речи ## Возможные проблемы с аудиоустройствами и дополнительные зависимости Если запись или воспроизведение аудио не работает "из коробки", возможно, потребуется установить дополнительные зависимости для вашей операционной системы: - **Linux**: убедитесь, что установлен пакет `portaudio` и соответствующие dev-заголовки. Например, для Ubuntu/Debian: ```sh sudo apt-get install portaudio19-dev ``` Также может понадобиться установить `alsa-utils`: ```sh sudo apt-get install alsa-utils ``` - **macOS**: обычно всё работает из коробки, но убедитесь, что приложению даны разрешения на доступ к микрофону и динамикам (Системные настройки → Конфиденциальность → Микрофон/Звук). В некоторых случаях может потребоваться установка PortAudio: ```sh brew install portaudio ``` - **Windows**: убедитесь, что установлены последние драйверы для вашей звуковой карты. Для работы некоторых библиотек может понадобиться [Microsoft Visual C++ Redistributable](https://learn.microsoft.com/en-us/cpp/windows/latest-supported-vc-redist?view=msvc-170). Если после установки зависимостей проблема не решена, проверьте сообщения об ошибках в консоли — они могут подсказать, какой компонент отсутствует или требует настройки. ## Настройка MCP сервера Добавьте этот MCP сервер к вашему агенту. ```json "mcpServers": { "mcp-salutespeech": { "command": "uvx", "args": [ "--from", "mcp_voice_salute", "mcp-salutespeech" ], "enabled": true, "env": { "SALUTE_SPEECH": "ВАШ_ТОКЕН_SALUTESPEECH" } } } ``` ## Описание инструментов ### sber_stt_record_and_recognize Записывает аудио с микрофона до появления 3-секундной паузы, затем отправляет запись на API распознавания речи SaluteSpeech и возвращает распознанный текст. **Вход**: Не требует параметров **Поведение**: Выполняет запись с микрофона, распознавание и возвращает текст **Выход**: Строка с распознанным текстом ### synthesize_speech Синтезирует речь из текста с помощью API SaluteSpeech и воспроизводит её через аудиоустройство компьютера. **Вход**: - `text` (string) — Текст для преобразования в речь - `format` (string, опционально) — Формат аудио (по умолчанию "wav16") - `voice` (string, опционально) — Голос для синтеза (по умолчанию "Bys_24000") **Поведение**: Преобразует текст в речь и воспроизводит через динамики **Выход**: Подтверждение успешного воспроизведения ## Как добавить этот MCP сервер в Cursor Есть два способа добавить MCP сервер в Cursor: 1. **Глобально** - добавить сервер в файл `~/.cursor/mcp.json` 2. **Для проекта** - добавить сервер в файл `.cursor/mcp.json` в вашем проекте ### Требования к окружению Для работы с API требуется установить переменную окружения: ``` SALUTE_SPEECH - токен Basic авторизации для доступа к API SaluteSpeech ``` ## Лицензия MIT License

mcp_voice_salute

Content

You Might Also Like

OpenWebUI

NextChat

cherry-studio

Companion

Companion

Companion

mcp_voice_salute

Scan with WeChat to Share

Content

You Might Also Like

OpenWebUI

NextChat

cherry-studio

Companion

Companion

Companion