Принято считать, что для качественной генерации нужно вывалить на нейросеть абзац текста с обязательными заклинаниями про шедевры и невероятную детализацию. Вопрос в том, работает ли этот подход с новыми архитектурами. Дизайнер Олег Парс тестировал свежую модель K-2 от платформы Krea две недели до релиза и собрал гайд, который ставит под сомнение привычные паттерны работы. Оказывается, зажимать модель длинными описаниями на старте — худший из возможных сценариев.
Базовая логика K-2 строится на жесткой иерархии, где тег стиля всегда идет первым словом. Если не задать cinematic photograph или mixed media collage в самом начале, рендер неминуемо скатится в дефолтный пластиковый реализм. При этом выстраивать запрос нужно итеративно. Короткие фразы дают модели пространство для использования собственных эстетических якорей, а детали вроде shallow depth of field или chiaroscuro стоит наслаивать постепенно, отслеживая реакцию на каждый токен.
Правда, с прямым контролем контекста у K-2 есть ощутимые проблемы. Отрицательные промпты здесь практически не функционируют: попытка написать no people с высокой вероятностью заставит сетку нарисовать толпу. Чтобы убрать объект, приходится использовать позитивные семантические замены — например, писать empty room вместо прямого запрета. Старый словарь из ранних моделей вроде 8k, trending on artstation или masterpiece тоже придется забыть. Нейросеть либо игнорирует этот мусор, либо токены начинают конфликтовать с ее внутренними настройками, выдавая грязный результат.
Поделиться:
Прогрев кеша в Claude API для снижения задержки первого токена (TTFT) →
Эссе Маттиаса Отта о разделении дизайна и разработки как устаревшем индустриальном наследии →