Размер шрифта
-
+

BIG DATA. Вся технология в одной книге - стр. 21

Сколько поисковых запросов проходит через Google ежедневно? Сколько фотографий размещается в Facebook? Умение различать достоверные, недостоверные и невероятные данные – один из базовых навыков информационной грамотности. Точные цифры не столь важны: информационная грамотность означает умение видеть разницу между чем-то вполне приемлемым и явной ошибкой на порядок. В подобных оценках физики часто рассуждают с позиций порядковых величин, то есть десятикратных различий. Они скажут, что количество пользователей Google или Facebook составляет порядка миллиарда человек, поскольку оно точно больше 100 миллионов и меньше 10 миллиардов[37]. Далее они сделают допущение о том, что типичный пользователь делает в среднем 10 поисковых запросов в день, поскольку их точно больше одного, но меньше 100. При оценке количества фотографий в Facebook они будут исходить из показателя одно фото на пользователя в день, поскольку их точно больше, чем одно в месяц и меньше 10 в день. Таким образом, мы получаем порядковые оценки ежедневного количества поисковых запросов и размещаемых фотографий – 10 миллиардов и 1 миллиард соответственно. И это только два вида операций в области социальных данных[38].

Осознав, что социальные данные ежедневно создаются во многих миллиардах других случаев, вы начинаете понимать, что ваши собственные первичные данные не имеют какой-то особой ценности в материальном смысле. Умилительное фото вашей собачки, которое вы запостили в Facebook, заинтересует от силы сотню человек, или 0,00001 процента пользователей сайта. Практически полезные закономерности и взаимосвязи можно выявить, только собрав и проанализировав данные нескольких миллионов человек. Отсутствие в их числе данных какого-то одного человека не повлияет на выводы, сделанные в результате переработки остального массива информации. Картина инфопереработчиков не исказится из-за пропуска данных одного человека из миллиарда.

Более того, входящая информация не всегда бывает столь же дискретной, как размещенное в Facebook фото. Отдельно взятый элемент данных похож на камушек или даже песчинку в океане – он обладает индивидуальными чертами и его трудно найти. Или же он может напоминать каплю чернил, которая растворяется в воде до состояния полной неотделимости. Информационная грамотность подразумевает также понимание того, как может быть удалена ваша информация: нужно ли для этого совершать конкретное действие, или же она сама собой растворится в общей массе данных всех пользователей. Выше я писал о том, что в Amazon просмотр товара увязывается с просмотром другого товара или покупкой. Клиент может удалить факт любой покупки из своей истории заказов, если не хочет, чтобы она там фигурировала. Но удалить факт просмотров из системы рекомендаций Amazon невозможно, поскольку они не привязаны к конкретному пользователю. В этом случае можно вновь провести параллель с нефтепереработкой: на определенном этапе становится невозможным выделить нефть, полученную на какой-то конкретной скважине.

Страница 21