Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… - стр. 16
Переменная имеет свое значение для того или иного объекта /случая / наблюдения.
По большому счету переменная – это характеристика объекта / случая / наблюдения. Например, цвет глаз у каждого человека будет свой.
Т.о., каждый случай, объект или наблюдение имеют свои характеристики, т.е., имеет свое значение той или иной переменной. Переменные описывают объект.
Например, на рис. 11 в качестве примера приведены Валя и Иван – это объекты / случаи / наблюдения.
Рис. 11. Объекты и переменные
А их рост, цвет глаз, доход, место проживания, частота путешествий и другие характеристики – это переменные.
Например,
· Валя -женщина, Иван – мужчина.
· Рост Вали = 1,7 метра, а Ивана 1,82.
· У Вали глаза голубые, у Ивана зеленые.
· Валя живет в Омске, Иван в Москве.
· Месячный доход Вали – 80.000 руб, а Ивана – 200.000 руб.
· Валя ездит на отдых за границу редко – раз в несколько лет, Иван часто – несколько раз в год.
Шкалы для измерения переменных
Каждая переменная может принимать различные значения. Значения переменных варьируются и отличаются от случая к случаю, от объекта к объекту.
Ну и Вы уже наверняка заметили, что они могут быть измерены в различных шкалах.
Например, пол – 0 и 1 или 1 и 0. Т.е, мужчина или женщина.
Доход, который выражается в рублях и может принимать большое количество разных значений, хоть до копеек.
Или частота поездок за границу, курения, использования интернета…
Разные шкалы имеют разную информативность. От того, какая шкала используется, зависят также и методы анализа, которые к ней можно применять.
Статисты понапридумывали разные типы шкал, но их в целом можно объединить в три основных типа, которые в книге приводятся в порядке возрастания информативности.
Номинальная шкала (рис. 12) – например, пол, город, страна, семейное положение, политическая партия, ФИО кандидата в президенты.
Рис. 12. Номинальная шкала
По сути, это шкала наименований и классификаций. С ней бессмысленно проводить какие-либо математические операции. Цифры в ней ничего не значат, или, как говорят ученые, не имеют эмпирического значения. Если, например, мы поставим 1 Уфе, а 2 – Самаре, это не означает, что Уфа на ступеньку ниже Самары. Мы можем даже поменять цифры между городами – это ничего не изменит.
Т.е., эта шкала всего лишь определяет принадлежность наблюдения, случая или объекта к какой-то группе и позволяет классифицировать объекты. Тут мы можем посчитать только количество объектов в группе. Например, количество или % мужчин и женщин в нашей выборке. Или количество людей из разных стран или городов. Или количество тех или иных профессий.