Команда NemoStation выкатила в открытый доступ Marlin-2B — компактную визуально-языковую модель, заточенную под конкретную боль разработчиков. Вместо генерации пространных описаний видео, она отвечает на два утилитарных вопроса: что происходит в кадре и на какой именно секунде. При весе всего в 2 миллиарда параметров модель обходит более тяжелую Qwen2.5-VL-7B и конкурирует с коммерческой Gemini-2.5-Flash в задачах темпорального граундинга.
Архитектурно это дообученная база Qwen3.5-2B, но весь секрет кроется в пайплайне подготовки данных. Разработчики прогнали массив видео через Gemini-3-Flash в режиме рассуждения для разметки точных временных границ действий, а финальное выравнивание сделали через алгоритм SimPO. В результате модель научилась выдавать не просто сырой текст, а строго типизированные словари с посекундными таймкодами.
Для интеграции не требуются сложные кастомные обертки — модель работает через стандартный API transformers и легко помещается в память потребительской видеокарты. Под капотом реализовано два нативных метода: marlin.caption() возвращает структурированный JSON с разбивкой сцены на события, а marlin.find() принимает естественный текстовый запрос и отдает точный кортеж с секундами начала и конца искомого действия.
Поделиться:
Трехуровневая система дизайн-токенов в VK Tech: прямой экспорт из Figma в GitLab →
Вакансия: UX/UI Artist в мобильный шутер WELTKRIEG 1: Firestorm →