Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… - стр. 15
Иллюстративно генеральная совокупность, выборка и вопрос ее репрезентативности изображены на рис. 10.
Рис. 10. Генеральная совокупность, выборка и вопрос ее репрезентативности
Неужели это настолько важно – какая будет выборка? Приведу такой пример (надеюсь, не обижу чувства верующих). Например, Вы выберете всех, кто участвовал в военных действиях. Эти люди выжили – и Вы обнаружите статистически значимую зависимость с молитвой перед боем. Вы будете впечатлены – неужели молитва реально помогает выжить? Можно ли заявить об этом?
Нет, нельзя. Во-первых, возможно Вы просто путаете причину и следствие (статистические взаимосвязи не означают причинно-следственные связи, о которой мы поговорим позже) – просто во время боевых и критических для жизни моментов люди начинают чаще молиться и надеяться на высшие силы. Поэтому правильная интерпретация – это опять же вопрос модели (элементов и их взаимосвязей) объекта / явления / процесса, который Вы исследуете.
А во-вторых, есть главная проблема в Вашем исследовании – Вы не знаете, сколько также молились, но погибли. Потому что не можете их опросить – они мертвы. Т.е., Вы отобрали нерепрезентативную выборку: она не представляет собой генеральную совокупность.
Для того чтобы выборка отражала генеральную совокупность, чаще всего используют три основных подхода:
1. Случайный: когда объекты для изучения отбираются из генеральной совокупности случайным образом.
2. Стратифицированный: когда генеральную совокупность разбивают на группы (страты) по важным для модели признакам (например, пол, возраст, отрасли, поведение, использование продукта с определенной частотой, частота посещения церкви и т.д.). Объём (%) каждой группы задает то количество объектов / наблюдений, которые надо отобрать из каждой группы. Получаются квоты на отбор тех или иных объектов.
3. Серийный: когда изымают партию товара, выбирают людей, проживающих в многоквартирном доме на конкретной улице, или берут целиком отдельные отделы в компании и т. д.
Соответсвенно, генеральная совокупность и выборка связаны напрямую: чтобы отобрать репрезентативную выборку, главное иметь правильное представление о всей генеральной совокупности.
Переменные
Данные обычно состоят из большого количества отдельных показателей, которые называют переменными. Это, например, доход, количество клиентов, город или страна, отдел, род войск, зарплата, пол, частота курения, количество посещений или часов порносайтов, частота занятия сексом в неделю, количество детей, социальный статус и т. д.