Мы закончим со статистическими рисками там, где, собственно, начинается статистика. Никакого коэффициента Стьюдента и распределения Гаусса. Только те термины и примеры, понимание которых не требует знаний, выходящих за пределы школьной программы. Самый популярный термин, используемый, в большинстве информации о статистических выкладках, это среднее значение.

В самом понятии среднее значение и  таится первый подвох. В статистике нет просто среднего значения.

Ошибка исключения происходит, если по случайной выборке делается вывод о всем распределении.

Еще одна ловушка при распределении среднего – полимодальное распределение. Говорит о том, что в распределении присутствует несколько кластеров.

Еще один пример важности однородной выборки и опасности использования только среднего арифметического, известный как экологическая ошибка.

Рассмотрим (Левитин стр. 37)два населенных пункта. В каждом живет по 100 человек.

Поселок А Поселок Б
99 человек с доходом 80 000 рублей 50 человек с доходом 100 000 рублей
1 человек с доходом 5 000 000 рублей 50 человек с доходом 140 000 рублей

Если оценивать покупательную способность жителей по среднему арифметическому доходов, то у жителей поселка А доход выше (129 и 120 тысяч соответственно). Но в 99 случаях из 100 доход жителя поселка Б будет выше дохода жителя А. Большое отклонение моды (80 для А и 120 для Б) от среднего арифметического является индикатором неоднородности выборки.

Теорема Байеса применяется при вычислении вероятности события при условии, что произошло другое, связанное с ним событие.

Приведем пример (Левитин стр. 36) с алкотестером. Алкотестер имеет погрешность измерения 5%. Это означает, что в 5 случаях из ста он ложно покажет состояние опьянения. Погрешность прибора в 5% кажется вполне приемлемой и достаточно распространенной. К чему такая погрешность приводит в реальности?