Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… - стр. 23
Такая структура массива данных позволит принять его в обработку любыми статистическими пакетами – от ОСА и до SPSS и нашего PSPP. В Excel можно многое оставлять и «буквенным» (например, «пол» писать «м», «ж» или указывать частоту «часто-редко») – но специализированные прикладные статистические программы «буквенность» очень плохо воспринимают для анализа.
Также специализированные программы еще потребуют создания так называемого «паспорта» для переменных, в котором будет задано имя, шкала переменной и описание ее альтернатив / вариантов.
Например, переменную «Пол» надо будет записать в паспорте «Пол», задать 2 альтернативы с кодами 0=М, 1=Ж. А приводимую в пример ранее частоту покупок шмоток надо будет закодировать 1=Редко, 2=Часто, 3=Очень часто. Мы увидим, как выглядит «паспорт» далее, при знакомстве с программой PSPP.
Сразу оговорюсь, что подготовка и «чистка» массива данных – это очень важная скурпулезная и дотошная работа. В книге в части рассмотрения этой проблематики мы ограничимся только базовыми, но самыми ключевыми вещами (другими словами, только минимумом достаточного).
Консолидация данных в единый файл
Часто данные содержатся в разных файлах или системах. И чтобы свести всё в единый массив, придется их собирать в одном файле.
Хорошо, когда это могут сделать ИТ специалисты, предоставив единый файл согласно Вашего запроса.
Но если этого не получается сделать, то может помочь такая функция Excel как ВПР (VLOOKUP). Она позволяет свести данные из множества разрозненных файлов в один файл-массив.
Главное, чтобы во всех разрозненных файлах содержался единый идентифицирующий признак.
Например, Вы работаете в компании и кадровые данные (пол, возраст, стаж, зарплата и т. д.) по сотрудникам содержатся в HR системе Ulcimus, фактические начисления и отчисления – в 1С, а оценка эффективности в Success Factor. Тогда идентификатором может являться либо ИНН (если он содержится во всех системах), либо ФИО (если нет полностью совпадающих ФИО), либо е-мейл.
Если Вы собираете данные с многих разных точек (например, магазинов, цехов, дочерних компаний или филиалов), то заранее приготовьте единую структуру Excel-файла. По однообразным таблицам можно осуществить их объединение вручную или осуществить быструю автоматическую консолидацию (через соответствующий макрос или меню команд Excel).
Если Вам необходимо собрать данные в виде мнений или экспертных оценок (например, провести опрос насколько сотрудники довольны программой страхования или клиенты новыми тарифами) – то можно воспользоваться специальными он-лайн программами. Есть отличные программы типа Key Survey или Monkey Survey. Даже Google Form позволит Вам быстро и бесплатно получить массив данных для анализа.