Размер шрифта
-
+

BIG DATA. Вся технология в одной книге - стр. 20

Оценка степени полезности результатов деятельности компаний, работающих с данными, – это существенно иная постановка вопроса, нежели привычные рассуждения о том, как, когда и почему компании и государство собирают наш «цифровой выхлоп», то есть информацию, которую мы создаем изо дня в день. Некоторые считают, что объем собираемой информации слишком велик и что лучшим вариантом поведения для частного лица является поменьше рассказывать о себе или же требовать плату за создаваемые и предоставляемые личные данные. При такой сосредоточенности на входящем потоке информации мы упускаем из виду потенциальные выгоды, которые можно извлекать на выходе. Я считаю, что мы вправе требовать нечто намного более ценное, чем мелкая денежная подачка, за предоставление своих первичных данных. Мы должны настаивать на участии в управлении инфопереработкой на справедливых и понятных условиях, чтобы иметь возможность влиять на ее результаты.

Для начала давайте рассмотрим различия между первичной и переработанной информацией. Когда я ввожу в поисковую строку «Андреас Вайгенд», Google докладывает, что эти два слова обнаружены в «примерно в 122 000 результатов». Отсмотреть все эти страницы вручную невозможно: если на каждую тратить хотя бы пять секунд (феноменально высокая скорость просмотра), на это потребуется целая неделя, что совершенно нереально. Поэтому остается положиться на порядок выдачи результатов. Во главу списка Google может поставить самые свежие упоминания. Это будет прекрасно в случае, если я интересуюсь последними новостями о себе, но не так здорово, если я ищу видео семинара, который вел несколько лет назад. Другой вариант – посчитать, сколько раз мое имя упоминается на страничке, и ранжировать релевантность результатов в соответствии с наибольшим количеством таких упоминаний. Это может оказаться полезным, если я просматриваю статьи и хочу найти ту, где меня цитируют чаще, чем в остальных. Но представьте себе, что вместо своего имени я набрал в поисковой строке «айпад по дешевке» – это будет примерно 350 000 результатов, и над полезностью такой выдачи стоит задуматься. Специалисты по рекламным ловушкам наверняка поработали над страничками с популярными поисковыми запросами (что действительно так), и мне придется долго блуждать от результата к результату в поисках действительно полезной информации.

Чтобы повысить эффективность поиска, Google рассматривает полезность страницы с учетом многих характеристик, а не только наличия слов из запроса. Разработчики компании начинали с ранжирования релевантности страниц по принципу количества ссылок на них в других местах, что давало возможность судить об уровне внимания аудитории. Когда народ понял важность входящих ссылок для места странички в выдаче поисковика, появилась сфера деятельности под названием «поисковая оптимизация» с одиозными «фермами ссылок», или линкопомойками. Алгоритмы Google пришлось усовершенствовать, чтобы они могли отличать входящие ссылки реальных заинтересованных пользователей от созданных по заказу владельца сайта. Сегодня у Google помимо структуры ссылок сети есть накопленные за два десятилетия данные о том, на какие сайты, предложенные по поисковому запросу, заходили люди и сколько времени проводили на них, прежде чем вернуться к странице результатов поиска. Если на сайт заходят многие, но, лишь бегло взглянув на него, уходят искать что-то более интересное, релевантность страницы в поиске Google падает, и она опускается ниже в результатах поиска. Тем не менее высокое место странички в результатах поиска в Google не гарантирует достоверность представленной на ней информации, а является лишь свидетельством проявляемого к ней внимания.

Страница 20