Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев… - стр. 13
Упоминая Excel, не хочу сформировать неправильные ожидания к книге, потому сделаю ударение: в книге не будет обучения базовым навыкам работы с Excel. Изложение книги предполагает, что читатель уже на минимальном базовом уровне знаком с Excel.
Очень краткие итоги раздела
Что я хотел, чтобы читатель вынес из раздела:
1. Никогда не ставьте ИЛИ между аналитикой и интуицией. Всегда И. Не умаляйте роль творчества и случайностей.
2. Пять особенностей социально-экономической реальности:
· Изменчивость
· Редкость нормального распределения
· Репрезентативность выборки
· Пристальное внимание к выбивающимся из общего массива случаям / объектам / наблюдениям
· Важность модели
3. Модель должна предшествовать анализу, чтобы иметь возможность объяснить и проинтерпретировать данные.
4. Разницу между данными, метриками, КПД, дашбордами и собственно аналитикой как поиском скрытых закономерностей и построения прогнозов посредством специального набора инструментов.
5. Неважно какой программный продукт / инструмент Вы используете – используйте то, что знаете. Программы / инструменты дополняют и повышают эффективность, но не заменяют человека.
ВВЕДЕНИЕ В СТАТИСТИЧЕСКИЙ АНАЛИЗ
О статистическом анализе
Нас повсюду окружают данные. В соцсетях, в магазинах, рекламе, метро… даже в авиалайнере. Весь мир – это цифры.
Нам может казаться, что собирая данные (при чем все больше и больше), мы контролируем большое количество важных вещей и держим ситуацию под контролем.
Но на самом деле важно уметь отбирать именно те данные, которые помогают понять ситуацию и принять решения, даже располагая неполной информацией. Какие именно данные важны помогает понять модель, о которой мы уже говорили.
С данными помогает работать такая наука как статистика. Именно она позволяет придать понятный вид и смысл огроменным массивам данных, состоящим даже из миллиардов или триллионов значений.
Статистика делится на описательную и аналитическую. Мы в книге рассмотрим оба эти ответвления.
Задача описательной статистики только описать объект, процесс, явление – используя среднее значение, % распределения, количество и т. д.
Аналитическая статистика использует более сложные методы, которые позволяют рассчитать взаимосвязи между переменными, а также понять, являются ли эти взаимосвязи просто случайными совпадениями или реальными закономерностями.
Анализ данных является ключевым этапом, в ходе которого происходит непосредственная проверка соответствия собранной информации нашим моделям явлений, процессов или объектов.
И более того: в ходе анализа формулируются и проверяются / уточняются существующие или рождаются новые модели, отражающие те закономерности, которые мы нашли в собранных данных.