Инфраструктура для интерактивных видеомоделей: как Fal объединил WebRTC и кастомные ядра для Blackwell

Fal.ai запустил инфраструктурный стек WMA (World Model Accelerator), смещая фокус с привычного API для генерации медиа на реалтайм-взаимодействие с видеомоделями. Главная деталь релиза — интеграция собственного WebRTC-шлюза напрямую с GPU-кластером. Это позволяет снизить задержку передачи кадров до значений меньше 50 миллисекунд (p99 на уровне 48 мс), что переводит генерацию видео из асинхронного рендеринга в формат интерактивного стриминга с моментальным откликом.

Под капотом работает проприетарный движок инференса с кастомными ядрами под архитектуры Hopper и Blackwell. Для DiT-нагрузок (Diffusion Transformer) заявлено ускорение в 2.6 раза на чипах B200. Развертывание и масштабирование от одной до тысячи видеокарт происходит без изменения серверного кода — разработчику достаточно обернуть пайплайн одним декоратором, а платформа берет на себя диспетчеризацию ядер на уровне железа и балансировку между edge-нодами.

Помимо технической части, Fal меняет подход к дистрибуции. Платформа начинает использовать свою базу энтерпрайз-клиентов уровня Adobe, Canva и Shopify для прямых совместных продаж (co-sell) сторонних моделей. Инфраструктура фактически превращается в B2B-маркетплейс, где создатели world-моделей получают не только серверлесс-вычисления, но и готовый канал монетизации с разделением выручки.

Инфраструктура для интерактивных видеомоделей: как Fal объединил WebRTC и кастомные ядра для Blackwell

Ещё публикации

Инфраструктура для интерактивных видеомоделей: как Fal объединил WebRTC и кастомные ядра для Blackwell

Ещё публикации