Блог им. empenoso
Идея отказаться от использования Яндекс Алисы в системе умного дома возникла у меня после новости о принятии Госдумой законопроекта, касающегося штрафов за поиск и доступ к экстремистским материалам в интернете. Казалось бы, при чём тут голосовой помощник? Однако Яндекс входит в реестр организаторов распространения информации, что означает определённые юридические и технические обязательства по хранению и передаче данных.
Хотя я не ищу ничего, выходящего за рамки финансовых новостей, желание иметь полностью автономный, локально работающий умный дом — без зависимости от интернета и облачных сервисов — стало для меня ещё актуальнее.

Тем более что сейчас единственным слабым звеном в моём умном доме остается Яндекс Алиса — которая требует постоянного интернет-соединения даже для выполнения простейших команд управления локальными устройствами.
В этой статье я расскажу, как и на что планирую заменить Алису, чтобы сохранить привычный голосовой контроль, но без сторонних подключений и рисков для приватности.
Конфигурация моего умного дома: чем будем управлять
Мой Home Assistant в «человеко читаемом» видеМой умный дом строился с прицелом на автономность, надежность и открытые стандарты — так, чтобы управление работало даже при полном отсутствии интернета. На данный момент архитектура системы выглядит следующим образом.
Мозг системы: центральный контроллер — это Raspberry Pi 4 Model B с 2 ГБ оперативной памяти, установлен в 2022 году. На него установлена Home Assistant OS — полноценная операционная система, заточенная под локальное управление умным домом — подробнее описывал в другой статье. Вся логика автоматизаций, интерфейс управления и интеграции работают исключительно локально, без необходимости в сторонних облаках.
Извиняюсь за скриншот, но с прокруткой только PicPick под Windows умеет делать — и вот результат :(Протоколы связи: большая часть устройств использует Wi-Fi через прошивку ESPHome — это 17 модулей: от простых температурных датчиков до управляющих реле в светильниках.
Ключевую нагрузку по управлению берет на себя Zigbee-сеть: 42 устройства, объединённые с помощью USB-донгла Sonoff Zigbee 3.0 Plus и интеграции Zigbee2MQTT. Это датчики, реле освещения и другие элементы.
Что управляется:
Освещение: в каждой комнате — два контура: тусклый (вечерний) и яркий, плюс светодиодная лента в спальне, освещение общего коридора с двумя режимами.
Климат: кондиционеры, обогрев ванной комнаты через реле теплого пола.
Электропитание и бытовая техника: управляемая розетка для ТВ, стиралка, холодильник, посудомойка, чайник.
Датчики: движения, открытия, температуры и влажности.
Шторы: моторизованные рулонные и классические.
Мультимедиа: управление Kodi на медиаплеере и доступ к медиатеке NAS Synology, панель управления умным домом.
Безопасность: камера видеонаблюдения из подъездного домофона, IP-камера у лифтов, управление домофоном в многоквартирном доме — автовахтер по моим правилам.
Все эти устройства уже управляются локально, без облачных зависимостей — кроме стиралки Bosch, купленной ещё в 2022 году.
Однако чтобы убрать колонку Яндекса и заменить Алису на полностью автономного голосового помощника, нужно понять, из каких компонентов он состоит. Это не “одна программа”, а целая цепочка взаимодействующих модулей, каждый из которых выполняет свою задачу:
ESP32-S3-BOX-3. Фото из интернетаМикрофон и динамик («Уши и рот» системы) — это устройства, которые слышат пользователя. Не должно быть колхоза из датчиков. Устройство должно выглядеть современно и не портить интерьер.
В моем случае я присматриваюсь к двум: компактный M5Stack ATOM Echo для комнат и более продвинутый ESP32-S3-BOX для гостиной.
Официальный комплект для разработки умных динамиков ATOM Echo M5StackОни захватывают звук и отправляют его на сервер для дальнейшей обработки.
100% новый ESP32-S3-BOX-3 ESP32-S3-BOX-3B модуль комплекта разработки приложений AIOT 2,4 ГГц Wi-Fi + Bluetooth 5Wake Word движок: нужен, чтобы система слушала нас постоянно, но реагировала только по ключевой фразе (например, «Привет, пирожок!»). Используем OpenWakeWord — полностью локальный и настраиваемый.
Speech-to-Text (STT): этот модуль превращает речь в текст. Здесь смотрю на Whisper от OpenAI — пишут что это один из самых точных и устойчивых к шуму движков, работающий прямо на локальном сервере. Про его выбор чуть ниже.
Распознавание намерений (Intent Recognition): после получения текста нужно понять смысл команды. Эта задача ложится на встроенный в Home Assistant механизм Assist, который сопоставляет текст с действиями и сущностями в системе.
Text-to-Speech (TTS): чтобы система могла отвечать голосом, нужен синтез речи. Я планирую использовать Piper — современный, быстрый, качественный, легко интегрируется как Add-on в HA. Как вариант RHVoice — тоже отличный вариант, но Piper сейчас является де-факто стандартом в сообществе HA за простоту и качество.
Wyoming Protocol: связующее звено. Простой, но мощный протокол, через который все эти модули общаются между собой и с Home Assistant.
Речь в текст: почему именно такой стек?Давайте будем честны: моя Raspberry Pi 4 с 2 ГБ памяти — отличный мозг для автоматизации, но для тяжелых вычислений, таких как распознавание речи в реальном времени, её мощности не хватит.
Поэтому, помимо «ушей» в виде ESP32-S3-BOX и M5Stack ATOM Echo, в систему придется докупить отдельный мини-ПК. Это может быть недорогой китайский NUC-подобный компьютер, который возьмет на себя самую ресурсоемкую задачу — преобразование речи в текст (Speech-to-Text (STT)).

Или может быть Raspberry Pi 5 c 16 ГБ оперативной памяти — цены сопоставимы.
Самый главный вопрос — что на нем будет крутиться? Выбор STT-движка определяет, насколько умным и гибким будет наш ассистент.
Speech-to-Phrase (от Open Home Foundation): это самый легковесный вариант. Он не распознает речь, а просто ищет точное совпадение с заранее заданными фразами.
К тому же это не конкретный движок, а концепция pipeline в HA. По умолчанию он использует тот же Whisper, но его самую легкую модель, чтобы хоть как-то работать на слабых устройствах вроде RPi. Плюс: минимальные требования к железу. Минус: абсолютная негибкость. Система поймет «включи свет на кухне», но проигнорирует «сделай на кухне посветлее». Это не интеллект, а поиск по словарю.
Rhasspy: ветеран мира локальных ассистентов. Мощный, но сложный в настройке комбайн. Главный аргумент против него сегодня: проект развивается медленнее, чем экосистема Home Assistant. Пока Rhasspy остается монолитной системой, связка Assist + Wyoming-протокол ушла далеко вперед в плане гибкости и интеграции.
Whisper от OpenAI — современный стандарт транскрипции. Понимает естественную речь в свободной форме, работает с русским языком. Различные модели (tiny, base, small, medium) позволяют балансировать между скоростью и качеством. Активно развивается, поддерживается сообществом HA, появляются оптимизированные версии вроде distil-whisper. Это выбор на перспективу.
Поскольку я нахожусь в активном поиске оптимального решения и уже закупаюсь компонентами, то буду признателен за ваши комментарии, критику и предложения.
Лично для себя я не рассматриваю этот вариант, однако этот путь подойдёт тем, кто хочет попробовать локальное голосовое управление с минимальными затратами времени и денег. Как раз, чтобы «пощупать» концепцию и понять, насколько она жизнеспособна.
M5Stack ATOM Echo. Микроразмер. Фото из интернетаИли если вы только планируете сделать умный дом — можно изначально заложить более мощное железо — чтобы всё было на одном севере.
Все компоненты — Home Assistant, распознавание речи (STT) и синтез голоса (TTS) — работают прямо на Raspberry Pi. Один микрофон, одна точка входа, минимум зависимости.
То есть:
<code>[M5Stack ATOM Echo] ← Wi-Fi → [Raspberry Pi 4 (HA + STT + TTS)]</code>
Если брать мой случай:
Уже есть: Raspberry Pi 4 (2 ГБ) с установленной Home Assistant OS.
Нужно купить: M5Stack ATOM Echo (примерно 1 400 рублей). Это крошечное устройство с микрофоном, динамиком и Wi-Fi — почти готовый китайский мини-клон Алисы.
Настройка:
Прошивка ATOM Echo: через ESPHome. Готовый YAML-конфиг для голосового ассистента легко найти в официальных примерах.
Pipeline в HA:
STT: Используем Assist pipeline от Open Home Foundation с движком faster-whisper и моделью tiny. Запустится скорее всего даже на Pi 4.
TTS: Устанавливаем Add-on Piper — быстрый и качественный синтезатор, особенно с голосами на русском.
Плюсы этого решения:
Минимальные вложения — только 1 400 рублей и немного времени.
Простота — всё работает на одном устройстве.
Быстрый старт — можно реализовать за один вечер.
Минусы:
Скорее всего заметная задержка из-за слабого железа.
Нагрузка на Home Assistant — может тормозить работу системы во время STT.
Плохо масштабируется: один микрофон — ещё приёмлимо, но два и больше будут проблемой.
Это мой приоритетный путь — вынести ресурсоёмкие задачи обработки речи на отдельный сервер, а Raspberry Pi остаётся заниматься только управлением умным домом. Подход масштабируемый, стабильный и в моём случае надеюсь что будет в разы быстрее.
ESP32-S3-BOX. Фото из интернетаСхема сложнее:
<code>[Пользователь]
↓ говорит
[ESP32-S3-BOX / M5Stack ATOM Echo] ← микрофон + wake word ("Привет, пирожок!")
↓ захватывает аудио
(по Wi-Fi)
↓
[Мини-ПК: Whisper STT-сервер]
↓ распознаёт речь в текст (Whisper STT)
↓
[Home Assistant на Raspberry Pi 4]
↓ определяет намерение (Assist)
↓ выполняет команду
↓ (опционально)
[Мини-ПК: Piper TTS]
↓ синтезирует голосовой ответ
(по Wi-Fi)
↓
[ESP32-S3-BOX / M5Stack ATOM Echo] ← динамик
↓ озвучивает ответ
[Пользователь]</code>Железо:
Уже есть Raspberry Pi 4 (2 ГБ) — Home Assistant, Zigbee, автоматизации.
Примерно 14 т.р.: Mini PC (Intel N100 или N95) — сервер обработки голоса.
Примерно 6 т.р. ESP32-S3-BOX — «умный» ассистент для гостиной.
Примерно 1,4 т.р. M5Stack ATOM Echo — недорогие ассистенты для других комнат.
Сервер обработки голоса (Mini PC):
Устанавливаем легкий Linux (Debian/Ubuntu Server), затем — Docker и Docker Compose. В docker-compose.yml разворачиваем сразу три контейнера:
Whisper — для распознавания речи (STT).
Piper — синтез речи (TTS).
OpenWakeWord — «ключевая фраза» для активации.
С мощностями N100 можно использовать модель Whisper уровня small или даже medium, получая более точное и быстрое распознавание речи, чем на Pi.
Настройка Home Assistant: на Raspberry Pi в этом случае не используется голосовых add-on'ов — только интеграция через Wyoming:
Заходим в Настройки → Устройства и службы → Добавить интеграцию.
Добавляем Wyoming Protocol трижды — для каждого из сервисов (Whisper, Piper, WakeWord), указав IP и порты Mini PC.
Создаём Voice Pipeline, выбираем нужные сервисы из выпадающих списков.
Спутники (ESP32-S3-BOX и ATOM Echo): прошиваются через ESPHome. У ESP32-S3-BOX можно задействовать экран: отображать статус («Слушаю», «Думаю», «Выполняю»), добавляя интерактивности.
Плюсы:
Ожидаемая быстрая реакция.
Ожидание распознавания сложных фраз.
Не грузит Home Assistant.
Масштабируемость: добавляем спутники — и всё.
Минусы:
Дороже (нужен Mini PC).
Потребуются базовые навыки Linux и Docker.
Можно полностью избавиться от Raspberry Pi 4 с 2 ГБ памяти и абсолютно всё перевести на новый мощный сервер. RAM видимо выбрать 16-32 ГБ чтобы с запасом на все. Может быть даже купить NVIDIA VRAM 6 ГБ, но это тогда сильно увеличит стоимость и можно будет забыть о безвентиляторности.
Сборка в mini-ITX. Фото из интернетаМожно тоже будет использовать Home Assistant OS или Linux (Ubuntu/Debian) + Docker.
Правда это большая работа — много устройств. Пока склоняюсь к второму варианту.
Переход на локального голосового ассистента — это не просто технический эксперимент, а осознанный шаг к созданию по-настоящему приватного и независимого умного дома.
Первый вариант — это отличная, почти бесплатная возможность «пощупать» технологию и понять ее ограничения. Второй — полноценное решение, которое по скорости и качеству скорее всего не уступит Алисе, при этом полностью оставаясь под контролем. Третий вариант — если есть бюджет.
Все пути ведут к одной цели — избавлению от «облачного рабства». До сентября ещё есть время. А расставание с Алисой может быть не только экологичным, но и очень увлекательным!
А каким голосовым помощником пользуетесь вы?
Автор: Михаил Шардин
🔗 Моя онлайн-визитка
📢 Telegram «Умный Дом Инвестора»
29 июля 2025 года
Михаил Шардин,
>Примерно 14 т.р.: Mini PC (Intel N100 или N95) — сервер обработки голоса
хз то вы там берете, но N95 с 16 гБ и 512 SSD стоит 9 тыр — как раз заказал только что его в кластер домашнему LXD серверу на N100 с умным домом.
(типа такого www.ozon.ru/product/soyo-mini-pk-intel-n95-ram-16-gb-ssd-512-gb-intel-hd-graphics-windows-mini-pk-m4-air-16-gb-512-1949986262/)
а малинку выкиньте в помойку — ну или как обучающий конструктор детям если есть.
потому что городить тот зоопарк а потом его думать о надежности каждого элемента — это у вас голова опухнет (а малинки дохнут да и по питаниям вообще капризные, да и вообще все дохнет :))
ну и голососом вы озаботились (хотя на openhab это решалось еще 6 лет у меня простым голосовым движком прямо в мобильном APP встроенном — а дальше уже делай с текстом что хошь). Но вы там упомянули безопасность и камерку :))
и когда вы захотите подключить свои 5-6 камер и начать не просто их бессмысленно писать, а хотябы делать анализ простейший — то сразу захочется вам поставить FRIGATE — малинку вообще выкинуть придется сразу, и чтобы анализ шел успешно на N95 — то и CORAL TPU засунуть — а тут опять малинка помоку :)
Как и особо NUC 50-60 за тыр тоже излишни - машинка на AMD 7840HS сделает любые NUC брендовые, а стоят в 2 раза дешевле.
Но конечно кластера не забывайте, докер в HA вещь конечно пойдет для начинающих, но освойте хотя бы LXD, возьмите пару машинок N95 c 16Гб памяти, настройте хотя бы бэкап ночной друг на дружку (для кластера с live миграциями и прочим надо все же хотябы 3 ноды) — распределите как раз назгрузку по анализу видео, речи, пережатию роликов для сброса куда вам там надо (телега?), сам умный дом — и будет вам счастье. причем без особой головной боли о том когда ж ваша малина там крякнет и как давно вы делали там бекапы:)
— Алиса, закрой шторы
— Тыдыдым
— Жена, закрой шторы
— Сам закрой
Такое себе )
Одна только энта статейка — уже повод попасть в особый чек лист ФСБ
1. Чайник со встроенным вай-фай
2. Обычная розетка на стане, в которую включается умная розетка, в которую вставляется чайник
3. Обычная розетка в стене, которая подключена к контроллеру, через провода, замурованные в стены
?
T-800, с каждым годом всё больше, на заре моего увлечения такого даже близко не было.
Сейчас холодильник, посудомойка, стиралка, чайник — все имеют интеграции и это заводские устройства.
брешут что там бесплатные унитазы выдают 😅
Стоит как обычный
Нафига нужен отдельный комп для распознавания и синтеза? Можно использовать упрощенную модель распознавания и строгую грамматику — тогда и той же малинки хватит с большим запасом.
Для чего/кого?! Для пожилых с деменцией.
А так… баловство
или так ради хайпа.
по «радиомодемам».
безлицензионные новые каналы радиочастот 800мгц, но на все это появляются и средства блокирования!
IliaM, конкретно мой пример про квартиру, за последние пару лет перебоев ни разу не было.
Да, linux сервера больше «боятся» перебоев, решается ИБП.
IliaM, 1. для «умного дома» электричества надо минимум — комп то жрет 10 Ватт
2. когда сделаете резервное электричество для одного — то поймете что и для всего остального дома это очень хорошая вещь, особенно вкупе с солнечными панелями которые сейчас знатно подешевели :)
«Яндекс-Алиса» пока еще не «нормальный человек», а отвечать за ее возможные экстремистские поползновения будете Вы.
Для меня другое загадка, как вы можете называть нормальными и вообще уважать тех, кто легко отказывается от части информации потому что путин так решил. Да вы рабы… получается.
Это много диапазонные передатчики
отключалка электричества,
связи инета,
на уровне чипов все «сливается» разработчикам!
… я, еще понимаю когда «больны на голову» в плане оружия. запасаются арсеналами, на конец света и объясняют что надо будет «отжимать» у остальных доходяк и лохов😁
1) Рабочий LUA-код для оценки теор цены опциона: smart-lab.ru/blog/1128697.php
2) LUA-код для выставления заявок в автоматическом режиме: smart-lab.ru/blog/737046.php
Прикольно, не думал что Pi4 не хватит на голосовое. Ну тогда Jetson и ИИ))
Я вот всё хочу накрутить распознавание хозяина и датчик CO2 поставить для проветривания. Ну и WIFI робота на колёсиках для развлечения кота, пока меня нет.
И настраивать это всё — подвиг, проще зацепить ми хоум.
Умный дом интересная концепция и интересное развлекалово для души, и наверно удобно/полезно.
Мне кажется, здесь отлично впишутся LLM — там и распознавание речи и синтез. Правда чтобы это работало локально нужно мощное железо. Кто-то так делает щас? А-то и может вообще щас такой тренд в теме умного дома?
Серверный шкаф занимает площадь ~1кв.м
И может быть стилизован под элемент мебели или холодильник например.
И шуметь может тоже не громче холодильника. Основная проблема — обеспечение хорошей вентиляции (на всякий случай).
Если разместить на балконе или лоджии эта проблема легче решается…
А в квартире куда удобней качественные аналоговые выключатели.
Там есть где разгуляться с автоматизацией.
Шторами двигать с дивана. С бодунища
К тому же датчики есть, правила есть
Когда я прочитал про «не самую большую 170 метров квартиру» в первой строчке я сразу подумал что это один из таких комментариев, потому что не самая большая квартира это наверное 25 квадратных метров, а не 170. Упоминание 5 холодильников только усугубили ситуацию.
Просто когда читаешь статистику — это выглядит по другому.
И 170 метров — все таки большая. Именно для таких больших квартир умный дом обычно и применяется
Дешевле
А потом вы проснулись?)
я юзаю ее для стримов, поржать над тупостью поделки
и как радио, эта тупость даже там постоянно косячит
Firefox умеет и видимую часть и всю.
А это ещё и коды от онлайн банка, личные фото т прочее в общем доступе правоохранителей.
Александр Львов, привет, новорег! Что привело тебя сюда?
Очень круто!
Но тема на конференции у меня вокруг Экселя будет
Открыл окно, выключился кондей и мойка воздуха,
Робот-пылесос по убирает по расписанию,
Шторы открываются по расписанию для, естественного пробуждения,
Свет включается по датчику движения и освещённости,
Запорные краны перекрывают воду при срабатывании датчика протечки
И т.д.