Fal.ai запустил инфраструктурный стек WMA (World Model Accelerator), смещая фокус с привычного API для генерации медиа на реалтайм-взаимодействие с видеомоделями. Главная деталь релиза — интеграция собственного WebRTC-шлюза напрямую с GPU-кластером. Это позволяет снизить задержку передачи кадров до значений меньше 50 миллисекунд (p99 на уровне 48 мс), что переводит генерацию видео из асинхронного рендеринга в формат интерактивного стриминга с моментальным откликом.
Под капотом работает проприетарный движок инференса с кастомными ядрами под архитектуры Hopper и Blackwell. Для DiT-нагрузок (Diffusion Transformer) заявлено ускорение в 2.6 раза на чипах B200. Развертывание и масштабирование от одной до тысячи видеокарт происходит без изменения серверного кода — разработчику достаточно обернуть пайплайн одним декоратором, а платформа берет на себя диспетчеризацию ядер на уровне железа и балансировку между edge-нодами.
Помимо технической части, Fal меняет подход к дистрибуции. Платформа начинает использовать свою базу энтерпрайз-клиентов уровня Adobe, Canva и Shopify для прямых совместных продаж (co-sell) сторонних моделей. Инфраструктура фактически превращается в B2B-маркетплейс, где создатели world-моделей получают не только серверлесс-вычисления, но и готовый канал монетизации с разделением выручки.
Поделиться:
Laguna XS.2: открытая 33B-модель для агентского кодинга на локальных машинах →
Кинематографичный ИИ-клип: сложная физика шторма и инерция объектов в The Lighthouse of a Free Destiny →