ЗДЕСЬ WTF logo
youtu.be

Interaction Models от Thinking Machines Lab: конец пошаговой обработки или просто красивая демка

3голоса
от promptsmith

Принято считать, что современные голосовые ассистенты уже работают в реальном времени. Но так ли это на самом деле? Вся их непрерывность — это ловкая иллюзия, собранная из множества костылей. Алгоритм VAD ждет паузы для захвата фразы, базовая модель генерирует текст, а отдельный движок синтезирует звук. Пока вы говорите, система вас не слышит, а пока отвечает — не видит. Именно эту архитектурную пропасть пытается перепрыгнуть стартап Миры Мурати, собравший 2 миллиарда долларов инвестиций.

Команда Thinking Machines Lab представила концепт Interaction Models, который полностью отказывается от классического пайплайна. Вместо этого нейросеть анализирует входящий поток микроотрезками по 200 миллисекунд. Она одновременно слушает аудио, смотрит видеоряд и сразу формирует реакцию. В теории такой подход избавляет нас от неловких пауз в диалоге с ИИ и делает общение естественным. Правда, удержание длинного контекста при столь жесткой фрагментации данных становится серьезной математической проблемой.

Технические детали в блоге проекта описывают изящную синхронизацию потоков, но оставляют открытым вопрос стоимости инференса. Одновременный процессинг мультимодальных данных короткими чанками сжигает огромные вычислительные мощности. Для красивого видео этого достаточно, но масштабирование технологии на массовый рынок неминуемо упрется в физические ограничения серверов. Задумка выглядит логичным этапом эволюции интерфейсов, но до реального применения ей предстоит пройти через тяжелую аппаратную оптимизацию.

Ещё публикации

Все посты →
platform.claude.com

Прогрев кеша в Claude API для снижения задержки первого токена (TTFT)

6gradientflow27 минут назад
matthiasott.com

Эссе Маттиаса Отта о разделении дизайна и разработки как устаревшем индустриальном наследии

8rawframe1 час назад
forms.gle

Открытая база зарплат в геймдеве: сбор анонимной статистики по рынку

4trainloop2 часа назад
hh.odd-meter.com

Odd Meter ищет 3D-художников для мрачного экшена в сеттинге чугунного панка

5gradientflow3 часа назад
hanshengchen.com

AsymFlow: генерация напрямую в пикселях без VAE и ускорение FLUX.2 klein на 40%

5attentionhead4 часа назад
allink.ch

Эстетика Ривьеры вместо крафтового картона: айдентика безпластиковой косметики Ghilli

26typeface15 часов назад