Почему. Руководство по поиску причин и принятию решений - стр. 13
Представим на первый взгляд несложную проблему: определить социальный статус людей по данным Facebook. Первая сложность заключается в том, что этой социальной сетью пользуется далеко не каждый, так что вы изучите лишь определенную группу, которая может не быть репрезентативной для населения в целом. Вторая: не все используют Facebook одинаково. Кто-то вообще не указывает статус отношений, кто-то лжет, а кто-то просто не обновляет профиль.
Итак, возникла масса проблем с формулированием выводов о причинных зависимостях. Самые важные заключаются в поиске причин на основе неточных данных или данных, в которых отсутствуют необходимые переменные и результаты наблюдений (если мы не фиксируем фактов курения, не начнем ли выискивать другие условия, вызывающие рак легких?), сложных взаимосвязей (что происходит, когда для наступления следствия требуется целая последовательность событий?), а также причин и следствий нерегулярных ситуаций (что вызвало резкий обвал фондового рынка в 2010 году?).
Что интересно, именно массивы данных, к примеру электронные медицинские карты, сводят на одном поле здравоохранения специалистов как по эпидемиологии, так и по информатике, которые разбираются в факторах, влияющих на здоровье населения. Доступность исторических данных о состоянии здоровья больших групп населения – их диагнозы, симптомы, лечение, экологические условия проживания и многое другое – становится громадным преимуществом для исследователей, старающихся понять факторы, которые влияют на состояние здоровья, а затем использовать это понимание для плановых действий в здравоохранении. Соответствующие вызовы лежат одновременно в области планов клинических исследований (с традиционным упором на эпидемиологические аспекты) и в возможности делать эффективные и достоверные заключения на основе крупных наборов данных (здесь главное место отводится компьютерной науке).
Эпидемиология, с точки зрения стоящих перед ней целей, имеет долгую историю разработки методов выявления причин – начиная с Джеймса Линда, который выборочно обследовал моряков, чтобы узнать причины цинги[28], и Джона Сноу, который обнаружил, что холера передается через зараженную воду[29], до Коха, который выявил связь между бактериями и туберкулезом[30], и Остина Хилла, связавшего рак легких с курением и сформулировавшего инструкции по оценке каузальных утверждений[31].
Медицинские исследования в наше время основываются на данных больше, чем когда-либо в истории. И больницы, и отдельные специалисты, оказывающие врачебные услуги, переводят данные о пациентах из бумажных в электронные форматы, при этом они должны следовать определенным критериям их применения (например, на основе данных принимаются врачебные решения). И все же большинство задач по соответствию этим критериям включает в себя анализ больших и сложных массивов информации, для которого нужны вычислительные методы.