BIG DATA. Вся технология в одной книге - стр. 24
Процесс переработки данных подразумевает также компромисс между исследованием и использованием. Хочу перенести вас к рядам игральных автоматов в залитом неоновыми огнями Лас-Вегасе. В области искусственного интеллекта (то есть компьютерных программ, способных самообучаться на основе входящей информации) задача об «одноруком бандите» является в каком-то смысле коронной, примером дилеммы между поиском новых вариантов или использованием лучшего из известных[42]. Предположим, вы зашли в казино и узнали, что кто-то вроде бы выиграл целое состояние на одном из автоматов. Как вы поступите? Проведете остаток вечера у этого прославившегося автомата или же будете исследовать остальные в поисках еще более высоких шансов на джекпот? Разумеется, сбор данных о результативности всех автоматов потребует времени. Поскольку казино создаются ради прибыли, игры настроены так, чтобы клиенты в целом оставались в проигрыше. И в идеале, как учат теоретики вычислительных систем, вам придется в течение какого-то времени понаблюдать за работой автоматов, чтобы постараться обнаружить закономерность. И хотя статистик сможет порекомендовать, сколько времени нужно потратить на наблюдение за каждым из этих шумных устройств, у вас все равно останется выбор – или исследовать новые варианты, или использовать тот, который уже доказал свою результативность. Может показаться, что пример об «одноруком бандите» имеет мало общего с конечной продукцией инфопереработки, однако в списке рекомендаций для пользователей в качестве ключевой задачи значится как раз поддержание баланса между исследованием и использованием. Из этих соображений пользователь выбирает наиболее подходящую ему рекомендацию. И здесь аналогия с нефтью снова придется кстати. Геологи-нефтяники и инженеры оценивают альтернативу: стоит ли и дальше вкладывать значительные средства до полной выработки существующего месторождения или же переключиться на поиски новых, где добыча может обходиться не так дорого. Инфопереработчикам также приходится решать проблемы лучшего применения ресурсов для максимизации эффективности входящих и исходящих потоков данных. В том, что касается информации, главным параметром, который надлежит контролировать, является время пользователей.
Когда поисковик вроде Google выдает ответ на ваш запрос, перечень сайтов представляет не десятки одинаковых позиций, а предлагает различные варианты в рамках определенной степени релевантности предмету поиска. Иногда бывает понятно, что вам нужна информация о чем-то совершенно конкретном, например в случае, когда вы вводите в строку поиска словосочетание «Panthera onca». Но если вы введете в качестве предмета поиска просто «ягуар», то компьютер покажет вам не только то, что относится к представителю кошачьих, автомобилю или старой операционной системе компьютеров Mac