BIG DATA. Вся технология в одной книге - стр. 27
Ошибки свойственны любой информации. Во времена небольших данных люди, собиравшие информацию, считали своим долгом досконально разобраться в ней и лично вычистить и исправить ошибки. И это было очень хорошо, поскольку от информации, полученной от небольшого количества людей, иногда зависели решения, затрагивающие всю общину или даже целый штат. Ошибка в количестве заявок на пособие по безработице, полученных за неделю в каком-то штате (например, опечатка вроде «254» вместо «2541»), могла привести к искажению данных по безработице, которые в свою очередь влияют на государственную экономическую политику. Долгосрочное исследование тенденций занятости, которое проводит Статистическое управление министерства труда США, охватывает выборку примерно в 10 000 человек, то есть основывается на порядке цифр, сопоставимых с количеством отзывов сотрудников Amazon на Glassdoor[47].
Разумно предположить, что доля ошибочной информации не снижается пропорционально росту количества собранных данных. Если в наши дни мы имеем доступ к объему информации, в сто раз превышающему прежний, можно ожидать, что и количество ошибок в этом потоке увеличится в сто раз. Но теперь у нас нет возможности отслеживать и вычищать каждую ошибку в массиве информации.
Однако решение проблемы экспоненциального роста количества ошибочной информации содержится в самом факте экспоненциального роста объемов данных. Поскольку люди постоянно реагируют на продукцию инфопереработки созданием новых данных, алгоритмы могут учиться выявлять то, что может являться ошибкой ввода. Если в строке поиска ввести «Андреас Вайганд», Google поинтересуется, не имелся ли в виду «Андреас Вайгенд».
Объединяя данные из многих источников, инфопереработка может выявлять наши ошибки во входящей информации. В июле 2012 года в моем смартфоне появился сервис под названием Google Now. Он сканировал мою электронную почту в поисках информации из моих электронных авиабилетов и сообщал о статусе рейсов, делая это даже раньше авиакомпаний. Казалось бы, все просто. Но этому сервису все же удалось удивить меня степенью продвинутости анализа данных. Как-то утром, когда я только собирался паковать свои чемоданы перед отъездом из Фрайбурга, приложение сообщило, что я должен выезжать в аэропорт немедленно. По моему графику до рейса оставалось еще несколько часов, а авиакомпании обычно не сдвигают регулярные перелеты вперед больше чем на пару минут. Тем не менее я доверял Google Now больше, чем своему календарю, и решил пошевеливаться – возможно, сервис узнал об огромной пробке на дороге. Приехав в аэропорт, я понял, что неправильно ввел время рейса в календарь. Google Now проигнорировал данные, введенные вручную, и послал мне напоминание исходя из информации в моем электронном билете в Gmail. (А спустя три года Google Now автоматически вносит расписание рейсов в мой календарь сразу же после того, как электронные билеты попадают в мою почту.)