Исследователи выпустили Talkie — языковую модель на 13B параметров, натренированную на 260 миллиардах токенов текста, изданного строго до 1930 года. Выбор временной отсечки прагматичен: все американские тексты старше этого периода перешли в общественное достояние. Главная ценность такого датасета заключается в создании стерильной среды для оценки LLM. Современные модели впитывают весь веб, из-за чего сложно проверить их способность к самостоятельному выводу концепций. Talkie лишена проблемы контаминации данных по дизайну.
Изоляция от современного контекста позволяет тестировать чистую генерализацию. Авторы прогнали модель без знаний о цифровых компьютерах через бенчмарк HumanEval для тестирования написания кода на Python. Получив несколько примеров в контексте, винтажная LLM справляется с базовыми однострочными скриптами — например, инвертирует функцию шифрования, заменяя сложение на вычитание. Параллельно исследователи замеряют способность предсказывать будущее. Метрика неожиданности текста для нейросети стабильно растет при чтении исторических сводок вплоть до 1960-х годов, после чего выходит на плато.
Для калибровки результатов команда обучила идентичного архитектурного близнеца на современном датасете FineWeb. Историческая версия ожидаемо уступает современной в базовых бенчмарках, но удаление анахроничных вопросов из тестов сокращает разрыв в метриках вдвое. Сейчас авторы готовят масштабирование проекта до объема GPT-3, а сборка архива размером свыше 1T токенов в перспективе позволит получить винтажную модель уровня оригинального ChatGPT.
Поделиться:
Пайплайн моушн-дизайнера: 2D-анимация и нейросети в образовательном криптоконтенте →
OpenAI запретила кодинг-агенту Codex говорить о енотах и гоблинах в системном промпте →