BIG DATA. Вся технология в одной книге - стр. 57
Самая богатая и более персонализированная по сравнению с этими прямыми сигналами информация, которой обладает любой сайт знакомств, содержится в истории просмотров профайлов каждым пользователем. Однако интерпретировать мотивы этих просмотров достаточно сложно. Работая с сайтом Match.com, я обнаружил пользователя, который заблокировал доступ к себе огромному количеству черных женщин. Скорее всего, это был расист, правильно? Неправильно! Посмотрев на установки его фильтра и его просмотры, мы убедились в том, что все обстоит ровно наоборот: он интересовался именно черными женщинами, причем только теми, кто описывал себя «фигуристыми». Для экономии времени и сил он блокировал пользователей-женщин, попытки познакомиться с которыми оказались неудачными. Информационным детективам приходится решать и такие забавные задачки. А способность обнаруживать интересные случаи и рассказывать о них – важная составляющая умения понимать информацию.
Чтобы правильно трактовать данные, надо встать на точку зрения пользователя. Здесь очень важна обстановка. По ходу дня наши желания меняются, или же это происходит по ходу ночи. Когда я консультировал сингапурский сайт знакомств Fridae, мы заметили, что типы профайлов, просматриваемых в два часа дня пятницы, отличаются от просматриваемых в два часа ночи субботы. В этой связи научной команде Fridae предстояло решить, как использовать эту информацию в рэнкингах, представленных на сайте.
Сайты знакомств все чаще предлагают пользователям возможность раскрыть свою «истинную сущность», стимулируя их добавлять в профайл кнопки ссылок на аккаунты в Facebook, Instagram или Twitter. Но это не значит, что случаи предосудительного поведения пользователей прекратились. Себастиан Боэр, один из специалистов по обработке данных мобильной платформы знакомств Skout, написал алгоритм фильтрации неприемлемых сообщений, под неформальным названием «гадоистребитель»[127]. Что считалось неприемлемым? Это определялось по кликам и взаимодействию пользователей. Если огромное количество пользователей блокировали кого-то определенного, то с большой долей вероятности можно было судить о том, что он – неприятный тип. А тот, кто постоянно слал безответные сообщения конкретному пользователю, явно был неприятен последнему. Со временем алгоритм научился распознавать содержание сообщений, которые обычно остаются без ответа или приводят к блокировке отправителя. Обычно в них присутствовал негатив. Очевидным признаком могли бы служить неприличные выражения, однако определение неприемлемости – значительно более тонкое дело. То, что кажется отвратительным одному человеку, может выглядеть привлекательным для другого. При выявлении закономерностей в блокировках «гадоистребитель» блокировал доставку сообщений. Кроме этого алгоритм пресекал избыточную отправку безответных сообщений какому-то конкретному пользователю. Задачей «гадоистребителя» было поддержание позитивной среды для большинства пользователей.