ЗДЕСЬ WTF logo
github.com

Phota Labs: подробный разбор модели идентичности и результаты бенчмарка

5голосов
от nothere

Phota Labs представила технологию улучшения сохранения личности на фото и в генеративных AI-редакторах, заявляя о собственном подходе к идентификации. Согласно подробному анализу и бенчмарку, опубликованному на GitHub, их модель действительно повышает сохранение идентичности на 39% при генерации и на 23% при редактировании по сравнению с базовой Nano Banana 2 (NB2) от Google.

Однако ключевой момент в том, что сама генерация и базовое редактирование выполняются именно моделью Google — Nano Banana, тогда как собственная разработка Phota Labs представляет собой второй этап, корректирующий "дрейф идентичности" после основной генерации. Эта система не запускается без предварительно обученного профиля, что означает, что без него пользователь получает ту же Nano Banana по стандартному тарифу Google с дополнительной платой $0.01 за проход.

Важным наблюдением стала компромиссность: корректировка идентичности уменьшает творческую вариативность, возвращая выражения лица и позы к параметрам обучающего набора данных, что ограничивает свободу генеративного процесса ради стабильности личности. Исследование проводилось на 250 изображениях с использованием четырех метрик, включая ArcFace — стандарт в распознавании лиц.

Тестирование с использованием анализа контента Gemini выявило, что каждый итоговый результат Phota несёт водяной знак Google SynthID, что подтверждает использование базовых моделей Google. Phota Labs открыто сообщила, что базовая генерация происходит на основе как открытых, так и закрытых foundation-моделей, включая Nano Banana. Их вклад — в обученной модели идентичности, работающей только при наличии профильных данных.

Для эксперимента был использован синтетический персонаж Eva с уникальной идентичностью и особенностями, такими как слегка сглаженная текстура кожи, что важно при оценке "дрейфа" модели. Обучение профиля заняло около 8 минут.

В итоге Phota Labs демонстрирует действительно работающую и полезную технологию, однако её позиционирование вызвало

Ещё публикации

Все посты →
rutube.ru

ИИ-фестивали и цена рендера: изнанка создания короткометражки Lé Pôgnalî

23batchnorm6 часов назад
zhurnalus.artlebedev.ru

Между ИИ-тревогой и дизайн-токенами: о чем пишет 507-й выпуск «Журналуса»

8embeddings4 часа назад
cloud.google.com

AI в кибератаках: генерация zero-day уязвимостей, автономные зловреды и автоматизация эксплойтов

9neuralpath5 часов назад
schneier.com

Сравнение возможностей GPT-5.5 и Claude Mythos в задачах поиска уязвимостей

8trainloop5 часов назад
matthiasott.com

Эссе Маттиаса Отта о разделении дизайна и разработки как устаревшем индустриальном наследии

23rawframe12 часов назад
github.com

Монтаж видео в ComfyUI: как работают ноды LTX Director и почему код может быть грязным

9finetuned10 часов назад