Убийственные большие данные. Как математика превратилась в оружие массового поражения - стр. 38
В большинстве дисциплин анализ, загружаемый в модель, требует гораздо большей тщательности. В агрономии, например, исследователи должны сравнить вводные параметры (почву, солнечный свет, удобрения) и параметры, получившиеся на выходе, то есть определенные свойства урожая. Затем они могут экспериментировать и оптимизировать результаты, исходя из целевого параметра, будь то цена, вкус или питательная ценность. Это не значит, что агрономы не могут создать оружия математического поражения – очень даже могут и иногда создают (особенно если отказываются принимать во внимание долгосрочные и разнообразные последствия применения пестицидов). Однако из-за того, что их модели по большей части четко нацелены на чистый результат, они идеальны для научных экспериментов.
Журналисты U. S. News, однако, имели дело с «качеством образования» – гораздо менее четкой величиной, чем цена кукурузы или количество миллиграммов белка в каждом зернышке. У них не было четких параметров, по которым можно было бы оценить, какое воздействие четырехлетнее обучение оказывает на одного студента, не говоря уже о миллионах студентов. Они не могли измерить количество усвоенного материала, счастье, уверенность в своих силах, дружбу и другие аспекты студенческого четырехлетнего опыта. Идеальная цель высшего образования, сформулированная президентом США Линдоном Джонсоном, – «углубление личной самореализации, усиление личной продуктивности и повышение личной самооценки» – не укладывалась в их модель.
Вместо этого они выбрали прокси, которые, как им казалось, коррелировали с успехом. Они посмотрели на результаты SAT, на соотношение студентов и преподавателей и на процент зачисления абитуриентов. Они проанализировали процент первокурсников, которые доучились до второго курса, а также процент выпускников. Они подсчитали процент выпускников, которые жертвовали деньги альма-матер, рассудив, что, раз у них возникло желание поддержать вуз, значит, им, скорее всего, понравилось там учиться. Три четверти ранжирования должно было производиться алгоритмом – то есть мнением, формализованным в коде, – в который были включены все эти прокси. Оставшаяся четверть рейтинга формировалась с учетом субъективных мнений официальных представителей колледжей по всей стране.
Первый рейтинг, основанный на вычислении данных, был опубликован в U. S. News в 1988 году, и его результаты казались вполне разумными. Однако, когда рейтинг вырос до статуса национального стандарта, материализовалась зловещая петля обратной связи. Проблема заключается в том, что рейтинги подпитывают сами себя. Если колледж однажды получил низкую оценку в