Код бестселлера
1
Luftslottet som sprängdes, Stieg Larsson.
2
Män som hatar kvinnor, Stieg Larsson.
3
Flickan som lekte med elden, Stieg Larsson.
4
Fifty Shades of Grey, E. L. James.
5
The Help, Kathryn Stockett.
6
Gone Girl, Gillian Flynn.
7
The Da Vinci Code, Dan Brown.
8
Inferno, Dan Brown.
9
The Lincoln Lawyer, Michael Connelly.
10
The Friday Night Knitting Club, Kate Jacobs.
11
Luckiest Girl Alive, Jessica Knoll.
12
В русском издании фамилия автора передана как «Кнолл». (примеч. перев.)
13
The Martian, Andy Weir.
14
The First Phone Call from Heaven, Mitch Albom.
15
The Art of Fielding, Chad Harbach.
16
Bared to You, Sylvia Day.
17
Harry Potter, J. K. Rowling.
18
Журнал книжной индустрии Publishers Weekly публикует список книг года – чемпионов по уровню продаж. (Примеч. авторов.)
19
The Spy Who Came in from the Cold, John le Carré.
20
Lord of the Flies, William Golding.
21
On the Road, Jack Kerouac.
22
Animal Farm, George Orwell.
23
A Time to Kill, John Grisham.
24
Списки бестселлеров в разных странах немного различаются, но мы будем говорить исключительно о списке NYT, поскольку он неизменно играет роль культурного стандарта и наиболее важен для книжной отрасли. В интернете легко найти критику методов, по которым составляются подобные списки, поскольку ни один из них не покрывает абсолютно все продажи из всех источников. Список NYT учитывает примерно 75 % всех продаж и строится на данных Nielsen BookScan. (Примеч. авторов.)
25
The Shack, William P. Young.
26
House of Leaves, Mark Z. Danielewski.
27
Jimmy Corrigan: The Smartest Kid on Earth, Chris Ware.
28
Определенный артикль в английском языке.
29
Предлог, в русском языке ему могут соответствовать разные предлоги, такие как «из», «от» и др. (Примеч. перев.)
30
Общее описание нашего метода содержится в послесловии. (Примеч. авторов.)
31
Неопределенный артикль в английском языке.
32
Предлог, в русском языке ему могут соответствовать разные предлоги, такие как «в», «через» и др. (Примеч. перев.)
33
Она (англ.).
34
Jane Eyre, Charlotte Brontё.
35
The Devil Wears Prada, Lauren Weisberger.
36
The Bonfire of the Vanities, Tom Wolfe.
37
The Quickie, James Patterson.
38
Extremely Loud & Incredibly Close, Jonathan Safran Foer.
39
Первую попытку выявления бестселлеров мы предприняли в первом нашем эксперименте, в Стэнфорде, еще в 2008 г. Наш корпус текстов состоял из 20 000 романов, но параметров для анализа у нас было гораздо меньше, всего 505. Такой большой корпус текстов был полезен для определенных видов анализа, но при этом он был составлен с уклоном в пользу более ранних периодов – в нем содержалось слишком много книг XIX века, а среди более современной литературы преобладали научная фантастика, фэнтези и любовные романы. Несмотря на эти недостатки, мы получили хорошие результаты: точность определения бестселлера колебалась в пределах 70–80 %.
При написании этой книги мы построили совершенно новый корпус текстов: более разнообразный и более современный. В нем содержалось почти 5000 произведений, в том числе электронные книги, не ставшие бестселлерами, романы, опубликованные традиционным путем, а также бестселлеры из списка NYT числом чуть больше 500. (Примеч. авторов.)
40
Pride and Prejudice and Zombies, Seth Grahame-Smith.
41
Не знаю что (фр.).
42
Джонсон Адам (р. 1967) – американский писатель, лауреат Пулитцеровской премии.
43
Многие методы, упомянутые в данной книге, описаны в учебнике авторства Мэтта «Text Analysis with R for Students of Literature». Этот учебник представляет собой вводное пособие в анализ текста и извлечение данных и предназначен для читателей, не имеющих подготовки в области компьютерных наук. Другая книга Мэтта, «Macroanalysis: Digital Methods and Literary History», содержит подробное описание методов, использованных нами в данной работе, в том числе моделирования темы (обсуждается во 2-й главе) и стилеметрии (в 4-й главе). Для тех, кому нужно еще более подробное описание методов, лежащих в основе наших исследований, мы рекомендуем труд Christopher Manning, Prabhakar Raghavan и Hinrich Schutze «Introduction to Information Retrieval» издательства Cambridge University Press, а также Gareth James, Daniela Witten, Trevor Hastie и Robert Tibshirani «An Introduction to Statistical Learning» издательства Springer. Обе эти книги требуют некоторого знакомства с предметом, но вместе они дают полный и очень хорошо написанный обзор дисциплин анализа текста и машинного обучения. (Примеч. авторов.)
44
The Goldfinch, Donna Tartt.
45
Сокращение расшифровывается как «Стандарты и обмен информацией в книжном деле».
46
On Writing: A Memoir of the Craft, Stephen King.
47
To Kill a Mockingbird, Harper Lee.
48
В отдельных случаях примеры адаптированы для русского читателя. (Примеч. ред.)
49
Мы использовали латентное размещение Дирихле – алгоритм моделирования тем, предложенный Дэвидом Блеем, сотрудником Колумбийского университета. Слово «латентный» в названии метода Блея отражает то, что некоторые темы могут присутствовать в тексте в неявном виде. (Примеч. авторов.)
50
В 8-й главе своей книги «Macroanalysis: Digital Methods and Literary History» (UIUC Press, 2013) Мэтт более подробно описывает алгоритм моделирования тем. В 13-й главе своей книги «Text Analysis with R for Students of Literature» (Springer, 2014) Мэтт объясняет читателям, как проводить моделирование тем на алгоритмическом языке R (и как создавать словесные облака, которые вы увидите на этих страницах). Мэтт также опубликовал несколько объяснений для неспециалистов у себя в блоге (www.matthewjockers.org), в том числе: «The LDA Buffet is Now Open; or, Latent Dirichlet Allocation for English Majors» (29.09.2011) и «“Secret” Recipe for Topic Modeling Themes» (12.04.2013). (Примеч. авторов.)
51
A Clockwork Orange, Anthony Burgess. Использован перевод «Заводного апельсина», сделанный Е. Г. Синельщиковым.
52
A River Runs through It, Norman Maclean.
53
Rogue Lawyer, John Grisham.
54
All the Light We Cannot See, Anthony Doerr.
55
The Girl on the Train, Paula Hawkins.
56
Go Set a Watchman, Harper Lee.
57
The Nightingale, Kristin Hannah.
58
O Alquimista, Paulo Coelho.
59
Ready Player One, Ernest Cline.
60
Роман Селесты Инг. Everything I Never Told You, Celeste Ng.
61
Роман Кристины Бейкер Кляйн. Orphan Train, Christina Baker Kline.
62
Роман Колма Тойбина. Brooklyn, Colm Tóibín.
63
House Rules, Jodi Picoult.
64
Точность измеряется с помощью перекрестной проверки. В этом случае мы использовали два типа перекрестной проверки: в первом (скажем для читателей, которых интересуют подробности) сначала использовалось многократное обучение на случайной выборке 90 % книг, а затем проверка результатов на оставшихся 10 %. Во втором мы использовали принцип «все, кроме одной», заключавшийся в том, что мы обучали модель на множестве всех книг, изымая оттуда лишь по одной книге единомоментно. В обоих экспериментах успехом считалось, когда машина правильно угадывала класс (бестселлер или небестселлер) изъятой книги (или книг, при первом подходе). Это длительный и кропотливый процесс, включающий в себя обучение и испытание множества моделей. При обучении этих моделей нам приходилось использовать уже изданные книги, про которые было известно, стали они бестселлерами или нет. Первая модель была построена в 2011 г. Добавив в корпус текстов все бестселлеры и некоторое количество небестселлеров, вышедшие за следующие пять лет, мы смогли снова испытать модель и в каком-то смысле проверить, работают ли наши наблюдения, сделанные в 2011-м, для 2015 г. Оказалось, что да. Подкрепив свою уверенность с помощью перекрестной проверки, мы можем исследовать прогноз и связанные с ним показатели вероятностей для каждой книги. По поводу некоторых книг модель не смогла прийти к окончательному выводу, и такие книги получали индекс 51 %. Поскольку случайная догадка имеет вероятность 50 на 50, это не очень высокая степень уверенности. В таком случае мы исследовали все остальные характеристики текста – например стиль или сюжет, – прежде чем сделать вывод о вероятности успеха. Но для других книг модель прогнозировала индекс успеха с большой уверенностью и присваивала им соответствующий рейтинг. (Примеч. авторов.)
65
The House on Hope Street, Danielle Steel.
66
Mixed Blessings, Danielle Steel.
67
Accident, Danielle Steel.
68
The Litigators, John Grisham.
69
The Associate, John Grisham.
70
Calico Joe, John Grisham.
71
Going Home, Danielle Steel.
72
The Firm, John Grisham.
73
Для тех, кого интересуют подробности, в послесловии объясняется, как мы вводили поправки при работе модели с несколькими книгами одного и того же автора. (Примеч. авторов.)