Добавить в избранное

The Pudding выпустили масштабный дата-анализ английских литературных клише, разобрав 200 000 сравнений формата as ___ as ___ из тысяч художественных книг. Жесткая структура таких конструкций позволяет извлекать их программно с минимальной погрешностью, отсекая стилистический шум и оставляя чистую статистику использования слов.

Каждое прилагательное в датасете получило собственный профиль распределения. Статистика показывает, что авторы редко изобретают новые метафоры и опираются на устоявшиеся паттерны. Например, слово dry в 43% случаев соседствует исключительно с bone, desert или dust. Существительные при этом работают иначе и делятся на две категории. Узкие специалисты вроде огурца намертво привязаны к одному качеству — cool. Зато универсалы вроде кота или ада выступают эталонами для десятков абсолютно разных характеристик, от грации до слабости.

Для точной оценки предсказуемости текста исследователи применили индекс разнообразия Симпсона. Метрика высчитывает вероятность того, что два случайно взятых сравнения с одним и тем же существительным опишут одинаковое свойство. Это отличный пример того, как алгоритмический парсинг и строгая статистика наглядно вскрывают механику формирования языковых идиом на макроуровне.

Анатомия клише: дата-анализ 200 000 сравнений в английской литературе

Ещё публикации

Анатомия клише: дата-анализ 200 000 сравнений в английской литературе

Ещё публикации