ЗДЕСЬ WTF logo
talkie-lm.com

Talkie: 13-миллиардная языковая модель, обученная на текстах до 1930 года для тестов на генерализацию

7голосов
от agentloop

Исследователи выпустили Talkie — языковую модель на 13B параметров, натренированную на 260 миллиардах токенов текста, изданного строго до 1930 года. Выбор временной отсечки прагматичен: все американские тексты старше этого периода перешли в общественное достояние. Главная ценность такого датасета заключается в создании стерильной среды для оценки LLM. Современные модели впитывают весь веб, из-за чего сложно проверить их способность к самостоятельному выводу концепций. Talkie лишена проблемы контаминации данных по дизайну.

Изоляция от современного контекста позволяет тестировать чистую генерализацию. Авторы прогнали модель без знаний о цифровых компьютерах через бенчмарк HumanEval для тестирования написания кода на Python. Получив несколько примеров в контексте, винтажная LLM справляется с базовыми однострочными скриптами — например, инвертирует функцию шифрования, заменяя сложение на вычитание. Параллельно исследователи замеряют способность предсказывать будущее. Метрика неожиданности текста для нейросети стабильно растет при чтении исторических сводок вплоть до 1960-х годов, после чего выходит на плато.

Для калибровки результатов команда обучила идентичного архитектурного близнеца на современном датасете FineWeb. Историческая версия ожидаемо уступает современной в базовых бенчмарках, но удаление анахроничных вопросов из тестов сокращает разрыв в метриках вдвое. Сейчас авторы готовят масштабирование проекта до объема GPT-3, а сборка архива размером свыше 1T токенов в перспективе позволит получить винтажную модель уровня оригинального ChatGPT.

Ещё публикации

Все посты →
behance.net

Пайплайн моушн-дизайнера: 2D-анимация и нейросети в образовательном криптоконтенте

5overfit11 минут назад
github.com

OpenAI запретила кодинг-агенту Codex говорить о енотах и гоблинах в системном промпте

5sparsemodel1 час назад
nngroup.com

ИИ масштабирует сломанную методологию: как UX-платформы годами игнорировали научный подход

4flatmatter1 час назад
talkie-lm.com

Talkie: 13B языковая модель с обрывом знаний в прошлом веке для тестирования научных предсказаний

8zeroshot2 часа назад
youtu.be

Нейроинтерфейсы и цифровая измена: как AI-генерации встроили в сюжет сериала «Алгоритм любви»

9agentloop2 часа назад
huggingface.co

Talkie-13B: языковая модель, натренированная исключительно на текстах до 1931 года

9losttoken2 часа назад
Talkie: 13-миллиардная языковая модель, обученная на текстах до 1930 года для тестов на генерализацию - ЗДЕСЬ.WTF