Размер шрифта
-
+

Data Science для новичков - стр. 18

Гистограмма показывает, что средние оценки распределены практически нормально. Интересно, что в интервалах 2.5—3.0 и 4.8—5.0 видны небольшие подъемы линии. При нормальном распределении этого быть не должно. Это означает, что оценки в указанных интервалах имеют вероятность большую, чем это предсказывает нормальное распределение. Дополнительная проверка на нормальность распределения с помощью статистических методов будет показана ниже.

Гистограмму можно построить разными способами. В случае выше ширина столбика показывает частичный интервал, а высота – количество значений в этом интервале. Возможно построить гистограмму, где высота столбика будет показывать плотность. Подробнее см. в официальной документации функции (https://seaborn.pydata.org/generated/seaborn.histplot.html).

Про интерпретацию гистограммы можно также прочитать в [учебнике для инженеров] (https://www.itl.nist.gov/div898/handbook/eda/section3/histogra.htm). Там же можно обнаружить различные типы гистограмм (как нормальную, так и, например, бимодальную), а также дополнительные статистические методы для определения типа распределения в зависимости от типа гистограммы. Гистограмма показывает:

1) центральную характеристику данных;

2) масштаб данных;

3) скошенность;

4) наличие выбросов;

5) наличие нескольких мод в данных.

Трансформация данных к нормальному распределению объясняется в 6.5.2. What to do when data are non-normal (https://www.itl.nist.gov/div898/handbook/pmc/section5/pmc52.htm)

Выбросы

В учебнике для инженеров дано следующее определение выбросов:

«Выбросы – это точки данных, которые получены не из того же распределения, из которого получена основная масса данных».

То есть выброс – это такое значение, которое пришло не из того распределения, из которого пришли основные данные. В этом смысл того, чтобы определить распределение для большинства данных, а затем уже выброс. Редкие данные возможны и в границах распределения для основных данных, но вот выброс выходит вообще за границы распределения, то есть например за пределы колокола в нормальном распределении. В этом смысл того, что сначала надо найти отличающиеся от других данные, а затем проверить их на влиятельность.

Вот рекомендации по обработке выбросов из учебника для инженеров:

1. К каждому выбросу необходимо относиться серьезно. Не рекомендуется автоматически удалять выбросы. Наличие выбросов может быть не просто ошибкой в данных, выбросы могут сообщать важную информацию о данных. Поэтому надо постараться объяснить, чем вызваны выбросы в данных.

Страница 18