Размер шрифта
-
+

Код бестселлера - стр. 24

. Чтобы различать эти два случая, компьютер нуждается в специальном обучении – по принципу, сформулированному Фёрсом семьдесят лет назад. Компьютер должен рассматривать каждое слово в контексте окружающих его слов в ближайших предложениях. Алгоритмический метод для формализации такого рассмотрения слов в контексте в больших объемах называется моделированием тем[49].


Математический аппарат, задействованный в моделировании тем, весьма сложен, но его общие принципы достаточно просты. Каждый роман представляет собой комбинацию тем, а эти темы выражаются словами (в первую очередь – существительными). Например, в книге о финансах, скорее всего, встретятся слова «банки», «проценты», «деньги», «фидуциарный». В другой книге, посвященной домашнему консервированию, мы увидим слова «банки», «крышка», «огурцы» и «укроп». Слово «банки» попадается в обеих книгах, но, рассмотрев другие существительные, стоящие рядом с каждым вхождением этого слова, компьютерная модель регистрирует повторяющиеся закономерности и может понять – подобно читателю-человеку, – что в разных местах слово «банки» имеет разные значения[50]. Очевидно, что слово «банки» само по себе еще не тема, но, когда оно постоянно попадается рядом с другими словами, которые (как нам уже известно) связаны с финансами, мы понимаем, что компьютер обнаружил в книге тему денег. Аналогично, если «банки» окружены «огурцами» и «пряностями», мы знаем: компьютер обнаружил тему домашних заготовок. При написании этой книги мы проводили моделирование тем, и одна из тем, обнаруженных компьютером, выглядела так, как показано на рис. 1.


Рис. 1


Эта тема посвящена барам – не единицам измерения, а заведениям, куда заходят выпить рюмочку. Значение этого слова вполне прозрачно. На нашей визуализации в виде облака слова изображены шрифтом разного размера: чем крупнее шрифт, тем чаще это слово попадается рядом со словом «бар». Это очень логично. Слова, непосредственно окружающие центральное слово «бар», – «бармен», «выпить», «виски», «пиво» – дают нам уверенность в том, что если компьютер нашел все эти слова в пределах одной-двух страниц, то действие разворачивается в обычном местном баре.

Не все темы, обнаруженные компьютером, так легко интерпретировать. Иногда требуются познания в литературе и дар рассуждения. Время от времени приходится распознавать необычный язык, сконструированный автором фантастической саги, или малоизвестный диалект. Если тема составлена из таких слов, как аск, уолл на уолл, боллзы и амбрелла, вы будете долго напрягать

Страница 24