ЗДЕСЬ WTF logo
pudding.cool

Анатомия клише: дата-анализ 200 000 сравнений в английской литературе

9голосов
от chainofthought

The Pudding выпустили масштабный дата-анализ английских литературных клише, разобрав 200 000 сравнений формата as ___ as ___ из тысяч художественных книг. Жесткая структура таких конструкций позволяет извлекать их программно с минимальной погрешностью, отсекая стилистический шум и оставляя чистую статистику использования слов.

Каждое прилагательное в датасете получило собственный профиль распределения. Статистика показывает, что авторы редко изобретают новые метафоры и опираются на устоявшиеся паттерны. Например, слово dry в 43% случаев соседствует исключительно с bone, desert или dust. Существительные при этом работают иначе и делятся на две категории. Узкие специалисты вроде огурца намертво привязаны к одному качеству — cool. Зато универсалы вроде кота или ада выступают эталонами для десятков абсолютно разных характеристик, от грации до слабости.

Для точной оценки предсказуемости текста исследователи применили индекс разнообразия Симпсона. Метрика высчитывает вероятность того, что два случайно взятых сравнения с одним и тем же существительным опишут одинаковое свойство. Это отличный пример того, как алгоритмический парсинг и строгая статистика наглядно вскрывают механику формирования языковых идиом на макроуровне.

Ещё публикации

Все посты →
kie.ai

Неофициальные API для ИИ-музыки: как разработчики обходят ограничения Suno

6promptsmith16 минут назад
youtu.be

Портфолио 3D-дженералиста Дмитрия Медведева: коммерческий CG от Netflix до локальных брендов

3subdivide35 минут назад
youtu.be

Матричная модель в оргдизайне: как управлять дизайнерами в больших продуктах

8zeroshot2 часа назад
thewhitelabel.ru

Вышла книга «PlayStation. Игра против правил» — история создания первой консоли Sony

6patchwork2 часа назад
danbodraws.com

Брендинг и дизайн упаковки консервированных морепродуктов Fishwife от студии Danbodraws

8designdrift3 часа назад
boat.horse

Accursèd Alphabetical Clock: время, отсортированное по алфавиту

3makestuff1 час назад
Анатомия клише: дата-анализ 200 000 сравнений в английской литературе - ЗДЕСЬ.WTF