Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… - стр. 24
Если Вы провели бумажный опрос (социолог, психолог, политолог, маркетолог, HR…) или собирали данные в бумажном виде – то надо проверить заполненность анкет и организовать их ввод в электронную базу. Также для считывания данных с бумажных анкет и ускорения формирования базы данных можно использовать специальные сканеры.
Но замечу, что на сегодня уже основная масса данных собирается «готовой к употреблению» сразу в электронном виде. Даже опросы в торговых точках, супермаркетах, производственных цехах и т. д. проводятся с применением Touch Pad технологий (интервьюер с интерактивным экраном, на котором отмечает ответы клиентов / сотрудников), позволяющих сразу же сформировать электронную базу данных.
Подготовка данных к анализу
Все данные, в каком бы они виде не были, необходимо вывести в единую таблицу.
И вот массив (таблица, в которой каждому объекту / наблюдению соответствуют значения переменных) у Вас есть, необходимо подготовить все данные к анализу.
Первое, что мы делаем – проверяем типы данных и шкалы наших переменных. В Excel достаточно сделать все данные числовыми (кроме названий компаний, ФИО, случаев и т.д.). Когда Вы будете использовать другой продукт (SPSS, PSPP, OCA и т.д.), то там будут свои требования.
Второе – проверяем корректность данных, путем использования фильтров или функционала сводной таблицы. Например, если у Вас переменная «Пол» принимает кроме значения 1 (мужчина) и 0 (женщина) еще какие-то числа – надо отобрать фильтром эти числа и понять откуда они «всплыли». Возможно, просто массив по конкретных строкам сместился в сторону, а возможно их надо удалить или запросить уточнение данных.
Третье – недостающие или пропущенные данные. Что с ними делать надо решать исходя из особенностей предмета, который Вы анализируете / исследуете. Обычно их либо выкидывают, либо заменяют средними значениями или модой.
Четвертое – преобразование данных. Это когда одни данные переводятся в другие. Это как перевести килограммы в граммы или вообще в категорийное понятие «большой / малый вес».
Например, Вы собрали данные о количестве детей у сотрудников, а потом решили поделить на категории: до 2 детей, 3—4 ребенка, 5 и более детей. Потому что именно в разрезе таких категорий Вы будете принимать управленческие решения (например, выплачивать тот или иной размер выходного пособия при сокращении).
Давайте посмотрим, как преобразование выглядит в Excel и PSPP. Только не пытайтесь сейчас запомнить окна и надписи на рисунках – это иллюстративные примеры: просто попытайтесь уловить логику шагов. Даже если не уловите – мы будем в деталях рассматривать эти вещи в других разделах.