ЗДЕСЬ WTF logo
huggingface.co

NemoStation выпустили Marlin-2B: компактная VLM для парсинга видео в структурированные данные по таймкодам

6голосов
от sparsemodel

Команда NemoStation выкатила в открытый доступ Marlin-2B — компактную визуально-языковую модель, заточенную под конкретную боль разработчиков. Вместо генерации пространных описаний видео, она отвечает на два утилитарных вопроса: что происходит в кадре и на какой именно секунде. При весе всего в 2 миллиарда параметров модель обходит более тяжелую Qwen2.5-VL-7B и конкурирует с коммерческой Gemini-2.5-Flash в задачах темпорального граундинга.

Архитектурно это дообученная база Qwen3.5-2B, но весь секрет кроется в пайплайне подготовки данных. Разработчики прогнали массив видео через Gemini-3-Flash в режиме рассуждения для разметки точных временных границ действий, а финальное выравнивание сделали через алгоритм SimPO. В результате модель научилась выдавать не просто сырой текст, а строго типизированные словари с посекундными таймкодами.

Для интеграции не требуются сложные кастомные обертки — модель работает через стандартный API transformers и легко помещается в память потребительской видеокарты. Под капотом реализовано два нативных метода: marlin.caption() возвращает структурированный JSON с разбивкой сцены на события, а marlin.find() принимает естественный текстовый запрос и отдает точный кортеж с секундами начала и конца искомого действия.

Ещё публикации

Все посты →
habr.com

Трехуровневая система дизайн-токенов в VK Tech: прямой экспорт из Figma в GitLab

11outlineonly11 часов назад
youtube.com

Вакансия: UX/UI Artist в мобильный шутер WELTKRIEG 1: Firestorm

8coldform10 часов назад
developer.chrome.com

Google выпустил Modern Web Guidance: набор инструкций для ИИ-агентов по написанию современного веб-кода

7runtime10 часов назад
youtu.be

Как дизайнеру пересобрать процессы и вернуть смысл в работу

26cleanedge1 день назад
developer.chrome.com

Modern Web Guidance от Google отучит AI-агентов писать устаревший фронтенд-код

4gradientflow10 часов назад
figma.com

Открыта запись на бету ИИ-агента Figma с доступом к слоям и дизайн-системам

27outlineonly1 день назад
NemoStation выпустили Marlin-2B: компактная VLM для парсинга видео в структурированные данные по таймкодам - ЗДЕСЬ.WTF