Размер шрифта
-
+

BIG DATA. Вся технология в одной книге - стр. 30

Работа Inrix с данными о дорожном движении – наглядный пример того, насколько агрегированные показатели множества устройств могут быть полезнее для принятия решений, чем первичные данные одного-единственного человека[50]. Упреждающие системы, действующие на основе анализа социальных данных, будут консультировать нас по вопросам персональных проблем, финансов, рабочих ситуаций, медицинского обслуживания и во многих других областях, а возможно, и стимулировать к принятию определенных решений.

Кроме того, на этом примере особенно хорошо заметна ключевая роль интерпретации в процессе обработки данных. Обработанные данные могут представляться в трех видах: как описание, прогноз или инструкция. Описание характеризует нечто уже состоявшееся. Прогноз экстраполирует прошлое и настоящее на будущее в предположении, что система не будет подвергаться воздействиям или манипуляциям, способным повлиять на результат. Инструкция рекомендует, как действовать для получения желаемого результата исходя из анализа прошлых событий.


ИНФОРМАЦИЯ
НЕ ДОЛЖНА
РУКОВОДИТЬ НАМИ.
ОНА ДОЛЖНА
РАСШИРЯТЬ СПЕКТР
НАШИХ ВОЗМОЖНОСТЕЙ

В описательной статистике данные обобщаются, например, в виде кластеров однородных элементов информации. Такие данные могут формировать условия для принятия решений в виде набора критериев для сравнительной оценки конкретной ситуации. Если вам нужно узнать, как в данный момент обстоят дела с пробками на Манхэттене, вы можете посмотреть по данным геолокации с мобильных телефонов, насколько быстро движутся и где встают потоки автомобилей. Но даже в таком относительно простом вопросе присутствует элемент интерпретации. Скорее всего, вы увидите данные о большом скоплении автомобилей в районе небоскреба MetLife. Но, может быть, это следствие того, что MetLife находится рядом с вокзалом Гранд Сентрал, где всегда полно такси, ожидающих пассажиров, и самих пассажиров, садящихся в такси, и поэтому мобильные телефоны показывают как бы «остановившееся» движение? Если вам нужно узнать, насколько хорошо идет предрождественская торговля в вашем магазине в этом году, вам нужно не только подытожить продажи, но и найти подходящую базу для сравнения. Сопоставление с вашими же данными за аналогичный период прошлого года не будет полностью корректным, поскольку в таком случае не будут учтены изменения, случившиеся в местной экономике. Вместо этого вы можете сравнить результаты своего магазина с результатами похожих магазинов по соседству.

Когда я работал в Amazon, мы исследовали динамику промежутков времени между просмотром товара и его покупкой. Некоторые статистические значения были явно ошибочными – они были отрицательными, а человек физически не может купить товар прежде, чем просмотрит его. Мы не знали, почему происходит такая ошибка, и просто не стали учитывать такие данные. При этом у нас накопилась масса данных, указывающих на то, что многие пользователи выжидают по восемь часов, прежде чем совершить покупку. Очень странно. И только потом мы сообразили, что, поскольку часть компьютеров Amazon настроена в тихоокеанском часовом поясе США, а часть – по Гринвичу, эта разница отражает различие во временных поясах применительно к кликам. Как часто случается, то, что сначала казалось шагом к интересным новым представлениям, в итоге объяснилось обычной ошибкой.

Страница 30