Статистика и котики - стр. 5
Проценты вместо абсолютных величин. Очень часто, чтобы придать своим данным значимости, хитрые люди переводят абсолютное количество котиков в проценты. Согласитесь, что результаты, полученные на 50 % котиков, выглядят куда солиднее, чем на пяти.
Сдвиг шкалы. Чтобы продемонстрировать значимые различия там, где их нет, хитрые люди как бы «сдвигают» шкалы, начиная отсчет не с нуля, а с более удобного для них числа.
Сокрытие данных. Если же цель хитрого человека в том, чтобы скрыть значимые различия в данных, то их можно разместить на одной шкале с другими данными, которые на порядок отличаются от первых. На их фоне любые различия или изменения будут выглядеть незначительно.
Изменение масштабов. Более мягкий вариант создания иллюзии значимости – это изменение масштабов шкал. В зависимости от масштаба одни и те же данные будут выглядеть по-разному.
Таким образом, надо быть очень аккуратным, интерпретируя данные, представленные в виде графиков и диаграмм. Гораздо меньше подвержены манипуляции данные, представленные в табличной формуле. Однако и здесь можно использовать некоторые хитрости, которые могут ввести в заблуждение непосвященную публику.
Глава 3. Чем отличаются котики от песиков или Меры различий для несвязанных выборок
Есть котики, а есть песики. Песики чем-то похожи на котиков: у них четыре лапы, хвост и уши. Однако они также во многом различаются – например, котики мяукают, а песики лают.
Но не все различия между ними настолько очевидны. Например, довольно трудно судить о том, различаются ли песики и котики по размеру – ведь есть как очень большие котики, так и очень маленькие песики.
Чтобы понять, насколько они отличаются друг от друга, необходимы так называемые меры различий для несвязанных выборок. Большая часть таких мер показывает, насколько типичный песик отличается от типичного котика. Например, самая популярная из них – t-критерий Стьюдента для несвязанных выборок – оценивает, насколько различаются их средние размеры.
Чтобы рассчитать этот критерий, необходимо из среднего размера песиков вычесть средний размер котиков и поделить их на стандартную ошибку этой разности. Последняя вычисляется на основе стандартных отклонений котиковых и песиковых размеров и нужна для приведения t-критерия к нужной размерности.
Если разность средних достаточно большая, а стандартная ошибка очень маленькая, то значение t-критерия будет весьма внушительным. А чем больше t-критерий, тем с большей уверенностью мы можем утверждать, что в среднем песики отличаются от котиков.
К большому сожалению, поскольку формула t-критерия включает в себя средние значения, то этот критерий будет давать неадекватные результаты при наличии котиков и песиков аномальных размеров (т. е. выбросов, о которых подробно рассказано в первой главе). Чтобы этого избежать, вы можете либо исключить этих котиков и песиков из анализа, либо воспользоваться непараметрическим