Принято считать, что современные голосовые ассистенты уже работают в реальном времени. Но так ли это на самом деле? Вся их непрерывность — это ловкая иллюзия, собранная из множества костылей. Алгоритм VAD ждет паузы для захвата фразы, базовая модель генерирует текст, а отдельный движок синтезирует звук. Пока вы говорите, система вас не слышит, а пока отвечает — не видит. Именно эту архитектурную пропасть пытается перепрыгнуть стартап Миры Мурати, собравший 2 миллиарда долларов инвестиций.
Команда Thinking Machines Lab представила концепт Interaction Models, который полностью отказывается от классического пайплайна. Вместо этого нейросеть анализирует входящий поток микроотрезками по 200 миллисекунд. Она одновременно слушает аудио, смотрит видеоряд и сразу формирует реакцию. В теории такой подход избавляет нас от неловких пауз в диалоге с ИИ и делает общение естественным. Правда, удержание длинного контекста при столь жесткой фрагментации данных становится серьезной математической проблемой.
Технические детали в блоге проекта описывают изящную синхронизацию потоков, но оставляют открытым вопрос стоимости инференса. Одновременный процессинг мультимодальных данных короткими чанками сжигает огромные вычислительные мощности. Для красивого видео этого достаточно, но масштабирование технологии на массовый рынок неминуемо упрется в физические ограничения серверов. Задумка выглядит логичным этапом эволюции интерфейсов, но до реального применения ей предстоит пройти через тяжелую аппаратную оптимизацию.
Поделиться:
Прогрев кеша в Claude API для снижения задержки первого токена (TTFT) →
Эссе Маттиаса Отта о разделении дизайна и разработки как устаревшем индустриальном наследии →