Размер шрифта

Синдром Паганини и другие правдивые истории о гениальности, записанные в нашем генетическом коде - стр. 53

Один из коллег как-то сказал про Ципфа, что тот «может ощипать прекрасную розу, чтобы сосчитать ее лепестки». С литературой Ципф обходился столь же бесцеремонно. Будучи студентом, он взялся за «Улисса» Джойса, и главное, что он вынес оттуда, – роман состоит из 260 430 слов, 29 899 из которых различны. Так же Ципф препарировал «Беовульфа», Гомера, тексты китайской литературы и творчество римского драматурга Плавта. Подсчитывая слова в каждом из произведений, он открыл закон Ципфа. Он гласит, что наиболее распространенное слово в языке встречается примерно вдвое чаще, чем второе по распространенности, примерно втрое чаще, чем третье, в сто раз чаще, чем сотое по распространенности, и т. д. В английском языке слово «the» составляет примерно 7 % от всех слов, «of» – примерно половину от этого, «a» – треть от этого и т. д., вплоть до экзотических слов типа «бустрофедон». Такое распределение соблюдается во всех языках – от санскрита и этрусского до современных хинди, испанского или русского (эти языки Ципф анализировал по прейскурантам каталогов от компании «Сирс»). Закон Ципфа действует даже по отношению к искусственным языкам.

Уже после смерти Ципфа в 1950 году ученые обнаружили свидетельства того, что его закон соблюдается отнюдь не только в языке. Его также можно проследить: в музыке (подробнее об этом расскажем чуть позже), списках городов по численности населения, распределении доходов, массовом вымирании живых существ, магнитудах землетрясений, соотношении различных цветов в картинах или мультфильмах и т. д. В каждом случае самый большой или самый распространенный из элементов был вдвое больше/распространеннее второго в списке, втрое – третьего и т. п. Внезапная популярность этой теории ожидаемо привела и к обратной реакции, особенно среди лингвистов, которые часто ставят под сомнение само существование этого закона[18]. В то же время многие другие специалисты защищают этот закон, так как он видится корректным – частота слов не кажется случайной – и, опытным путем, описывает языки со сверхъестественной точностью. Даже «язык» ДНК.

Конечно, соблюдение закона Ципфа в случае с ДНК на первый взгляд не кажется очевидным, особенно для носителей западноевропейских языков. В отличие от большинства языков ДНК не имеет очевидных пробелов, помогающих отличать каждое слово. Это скорее напоминает тексты древних рукописей, без каких-либо пробелов, пауз и без единого знака препинания, бесконечные строки букв. Можно предположить, что триплеты, состоящие из А, Ц, Г и Т, которые кодируют аминокислоты, могут выступать в качестве «слов», но их соотношение совсем не похоже на ципфианское. Чтобы найти действие закона Ципфа, ученым пришлось обратить внимание на группы триплетов, и в этих поисках некоторые специалисты обратились к необычным помощникам: китайским поисковым системам. Китайский язык создает сложные слова путем связи соседних символов. Так, если в китайском тексте написано АБВГ, поисковые системы могут выступать своеобразным раздвижным окном, в котором помещаются найденные значимые отрывки: сначала АБ, БВ и ВГ, затем АБВ и БВГ. Использование принципа «раздвижного окна» оказалось неплохой стратегией для поиска значимых отрывков ДНК. Оказалось, что, в каком-то смысле, ДНК выглядит даже более ципфианской, чем язык, в группах, каждая из которых насчитывает до двадцати оснований. В общем, возможно, что наиболее значимой единицей для ДНК может быть не триплет, а четыре триплета, работающих сообща, – додекаэдрный мотив.

Страница 53

На следующую страницу