Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - стр. 17
В случае с Arctic Ale чуть большее внимание помогло бы избежать проблемы. Небрежность, безусловно, одна из самых распространенных причин появления темных данных, но далеко не единственная. Неприятный факт заключается в том, что данные могут стать темными по очень широкому ряду причин, и далее в книге мы увидим это.
Заманчиво считать темные данные исключительно тем, что можно было бы получить, но по каким-то причинам не удалось. Безусловно, это самый очевидный вид темных данных. Отсутствующие данные по заработной плате в опросе, в котором часть респондентов отказалась разглашать эту информацию, конечно, являются темными данными, но также ими является и уровень заработной платы безработных, которые не получают ее и, следовательно, просто не могут назвать. Ошибки измерения и неточности скрывают истинные значения; обобщая данные (например, вычисляя средние значения), мы теряем детали; неверные формулировки запросов искажают смысл того, что мы хотим узнать. В более общем понимании любую неизвестную характеристику некоей генеральной совокупности (статистики часто используют термин «параметр») можно рассматривать как темные данные.
Поскольку число возможных причин возникновения темных данных, по сути, не ограничено, знание того, на что следует обращать внимание, является чрезвычайно важным для предотвращения ошибок и просчетов. Именно с этой целью в нашей книге и представлено описание DD-типов. Они не охватывают все возможные причины (например, небрежность, допускающую включение в окончательный результат исследования данных пациентов, которые наблюдались недостаточно длительное время), но обеспечивают более общую систематику (например, проводят различие между данными, о которых мы знаем, что они отсутствуют, и данными, о которых мы этого не знаем). Понимание этих DD-типов может помочь вам защититься от ошибок, оплошностей и угроз, вытекающих из самого факта незнания. В этой книге представлены, а в главе 10 обобщены следующие DD-типы:
● DD-тип 1: данные, о которых мы знаем, что они отсутствуют;
● DD-тип 2: данные, о которых мы не знаем, что они отсутствуют;
● DD-тип 3: выборочные факты;
● DD-тип 4: самоотбор;