BIG DATA. Вся технология в одной книге - стр. 45
Но информация была привязана к «удостоверению личности» задолго до появления Facebook. В середине 1990-х годов теоретик информатики Латания Суини решила выяснить, насколько в действительности анонимна «анонимная» база данных о состоянии здоровья[89]. Штат Массачусетс решил, что предоставление научному сообществу информации о посещениях госслужащими врачей в клиниках соответствует государственным интересам. Не будучи совсем дураками, чиновники понимали, что передавать эти данные с указанием имен людей нельзя, и удалили ряд идентификаторов – фамилии, адреса и номера карточек социального страхования. Но поскольку статистика предназначалась для целей совершенствования системы здравоохранения, кое-какие данные о пациентах в ней оставили – пол, дату рождения и почтовый индекс. Сопоставив эти три элемента информации с другой базой данных – списками избирателей, зарегистрированных по городскому округу Кембриджа, официально доступных любому человеку за плату в двадцать долларов, Суини смогла вычислить медицинскую карту губернатора штата. После чего доктор Суини «сделала театральный жест, направив копию медицинской карты губернатора со всеми диагнозами и выписанными рецептами прямо ему в офис»[90].
По оценке Суини, зная пол, возраст и почтовый индекс человека, можно идентифицировать 87 процентов населения США[91]. Более поздние исследования понизили этот показатель до примерно 63 процентов – тоже поразительно много, учитывая, что это можно сделать без использования намного более точных сведений, которыми люди постоянно делятся в Facebook и на других сайтах, где собирают социальные данные[92]. Почему для идентификации личности человека нужно столь мало информации, поясняет порядковый расчет. В США примерно 40 000 активных почтовых индексов и около 300 миллионов человек населения, из чего следует, что на один почтовый индекс приходится примерно по 7000 жителей, которые приблизительно поровну делятся на мужчин и женщин[93]. Если предположить, что количество новорожденных равномерно распределяется по количеству дней в году, то получается, что «привязанными» к одному почтовому индексу будут по десять мужчин или женщин с одинаковым днем рождения.
Теперь посмотрим на социальные данные, которыми обычно располагает инфопереработчик. Представление о том, что человека нельзя идентифицировать по его цифровому следу, рассыпалось в пух и прах после того, как два крупнейших инфопереработчика поделились «обезличенными» социальными данными с учеными. Сначала интернет-провайдер AOL предоставил для исследовательских целей историю поиска 658 000 пользователей за трехмесячный период. Однако по чьей-то оплошности эти данные оказались в сети, и двум журналистам из газеты «Нью-Йорк таймс» удалось установить личности нескольких человек по их поисковым запросам