Нормальное распределение — основа большинства статистических методов, от простого расчёта среднего до сложного регрессионного анализа. Но как понять, что ваши данные в Excel действительно подчиняются этому закону? Ошибки на этом этапе приводят к неверным выводам: например, применение t-критерия Стьюдента к ненормально распределённым данным искажает результаты на 20-30%.
В этой статье разберём 5 практических методов проверки нормальности — от визуальных (гистограммы, графики Q-Q) до строгих статистических тестов (Шапиро-Уилка, Андерсона-Дарлинга). Все примеры приведены для Excel 2019/365 и Excel Online, с учётом ограничений бесплатной версии. Особое внимание уделим типичным ошибкам: почему НОРМ.РАСП() не всегда подходит для проверки и как правильно интерпретировать p-value.
Спойлер: если у вас меньше 50 наблюдений, визуальные методы часто врут — придётся полагаться на тесты. А для выборок свыше 1000 строк даже они становятся излишне чувствительными. Но обо всём по порядку.
1. Визуальный анализ: гистограмма и кривая нормального распределения
Начнём с самого простого — построения гистограммы с наложенной кривой нормального распределения. Этот метод не даёт точных выводов, но помогает быстро отсеять явно ненормальные данные (например, с выраженной асимметрией или выбросами).
Как построить в Excel:
- Выделите столбец с данными (например,
A1:A100). - Перейдите на вкладку
Вставка → Вставить гистограмму (2D). - Щёлкните правой кнопкой по любому столбцу гистограммы →
Добавить линию тренда. - В настройках линии тренда выберите тип
Нормальная аппроксимация(в Excel 365 эта опция называетсяНормальное распределение).
Что искать на графике:
- 📊 Симметрия: левая и правая части гистограммы должны быть зеркальными относительно центра.
- 🔔 Колоколообразность: пик в центре, плавное снижение к краям.
- ⚠️ Выбросы: отдельные столбцы далеко от основной массы данных — признак ненормальности.
⚠️ Внимание: Гистограмма обманчива при малых выборках (n < 30). Например, данные из 10 значений почти всегда будут "похожи" на нормальное распределение, даже если на самом деле таковым не являются. Для таких случаев используйте график Q-Q (раздел 2).
Пример интерпретации:
Если ваша гистограмма выглядит как "горб верблюда" (два пика) или имеет длинный "хвост" вправо/влево — данные гарантированно ненормальные. В этом случае дальнейшие тесты бессмысленны.
2. График квантилей (Q-Q plot): точный визуальный тест
График квантилей (Q-Q plot) сравнивает квантили ваших данных с квантилями теоретического нормального распределения. Если точки лежат на прямой линии — распределение нормальное. Этот метод точнее гистограммы и работает даже для небольших выборок (n ≥ 10).
Как построить Q-Q plot в Excel:
- Отсортируйте данные по возрастанию (выделите столбец →
Данные → Сортировка от минимального к максимальному). - Добавьте столбец с теоретическими квантилями. Для этого:
=НОРМ.ОБР((ПОРЯДОК(A1;$A$1:$A$100;0)-0,5)/100;СРЗНАЧ($A$1:$A$100);СТАНДОТКЛОН($A$1:$A$100))(замените
A1:A100на ваш диапазон). - Постройте точечную диаграмму:
Вставка → Точечная → Точечная с прямыми отрезками, где по оси X — теоретические квантили, по Y — реальные данные.
Критерий нормальности:
- ✅ Точки лежат на прямой линии → нормальное распределение.
- ❌ Точки образуют изогнутую линию (например, S-образную) → асимметрия.
- ❌ Отдельные точки далеко от линии → выбросы.
Почему Q-Q plot лучше гистограммы?
Q-Q plot сравнивает не плотности (как гистограмма), а квантили — поэтому он устойчив к размеру бинов и лучше выявляет отклонения в "хвостах" распределения. Например, логнормальное распределение на гистограмме может выглядеть "похожим" на нормальное, а на Q-Q plot будет явно видна кривизна.
Типичная ошибка: многие забывают отсортировать данные перед построением Q-Q plot. В результате график становится хаотичным, даже если распределение нормальное.
3. Статистические тесты: Шапиро-Уилка и Андерсона-Дарлинга
Визуальные методы субъективны. Для точных выводов используйте статистические тесты. В Excel нет встроенных функций для тестов Шапиро-Уилка или Андерсона-Дарлинга, но их можно реализовать через надстройки или VBA. Рассмотрим оба варианта.
Тест Шапиро-Уилка (лучше для n ≤ 50):
- 📌 Нулевая гипотеза (H₀): данные распределены нормально.
- 📌 p-value > 0.05 → не отвергаем H₀ (нормальное распределение).
- 📌 p-value ≤ 0.05 → распределение ненормальное.
Как провести тест в Excel:
- Установите надстройку Real Statistics Resource Pack (бесплатно для некоммерческого использования).
- Выделите данные → на вкладке
Real StatisticsвыберитеNormality Tests → Shapiro-Wilk Test. - В результатах посмотрите на
p-value.
Тест Андерсона-Дарлинга (лучше для n > 50):
- 📊 Более чувствителен к отклонениям в "хвостах" распределения.
- 📊 Требует специальных таблиц критических значений (их можно найти в интернете).
⚠️ Внимание: Оба теста могут давать ложноположительные результаты при больших выборках (n > 1000). Например, при n=5000 даже минимальные отклонения от нормальности будут статистически значимыми, хотя на практике ими можно пренебречь. В таких случаях полезнее оценивать эффект отклонения (насколько оно влияет на ваш анализ), а не формальную нормальность.
| Тест | Оптимальный размер выборки | Чувствительность | Реализация в Excel |
|---|---|---|---|
| Шапиро-Уилка | 10 ≤ n ≤ 50 | Высокая к асимметрии и эксцессу | Надстройка Real Statistics |
| Андерсона-Дарлинга | n > 50 | Очень высокая к "хвостам" | VBA-скрипт или внешние инструменты |
| Колмогорова-Смирнова | n > 100 | Низкая | Функция КРИТЕРИЙ.ХИ2.ОБР() + ручной расчёт |
4. Коэффициенты асимметрии и эксцесса: быстрая проверка
Если вам не нужна высокая точность, оцените два ключевых параметра:
- Асимметрия (skewness): показывает смещение распределения влево/вправо. Для нормального распределения ≈ 0.
- Эксцесс (kurtosis): показывает "остроконечность" распределения. Для нормального ≈ 0 (точнее, 3 в некоторых определениях).
Формулы в Excel:
=СКОС(диапазон)
=ЭКСЦЕСС(диапазон)
Критерий нормальности:
- 🟢 |Асимметрия| < 0.5 и |Эксцесс| < 0.5 → распределение близко к нормальному.
- 🟡 0.5 < |Асимметрия| < 1 или 0.5 < |Эксцесс| < 1 → умеренное отклонение.
- 🔴 |Асимметрия| > 1 или |Эксцесс| > 1 → сильное отклонение.
Пример:
Если асимметрия = -0.8, а эксцесс = 1.2, ваши данные имеют левостороннюю асимметрию и острый пик — это типично для логнормального распределения.
Рассчитать асимметрию и эксцесс|Сравнить с пороговыми значениями (0.5)|Учесть размер выборки (для n < 30 пороги можно увеличить до 1)|Проверить визуально на гистограмме-->
5. Тест хи-квадрат (χ²): альтернатива для больших выборок
Тест хи-квадрат сравнивает наблюдаемые частоты данных с ожидаемыми частотами нормального распределения. Подходит для n ≥ 50, но требует ручного разбиения данных на интервалы (бины).
Пошаговая инструкция:
- Разбейте данные на 5-10 интервалов (бинов) одинаковой ширины. Используйте функцию
=МИН(),=МАКС()и=ШАГ()для определения границ. - Посчитайте наблюдаемую частоту для каждого бина (функция
=ЧАСТОТА()). - Рассчитайте ожидаемую частоту для нормального распределения:
=НОРМ.РАСП(правая_граница_бина;СРЗНАЧ();СТАНДОТКЛОН()) - НОРМ.РАСП(левая_граница_бина;СРЗНАЧ();СТАНДОТКЛОН())Умножьте результат на общее число наблюдений.
- Вычислите статистику хи-квадрат:
=СУММПРОИЗВ((наблюдаемые-ожидаемые)^2/ожидаемые) - Сравните с критическим значением из таблицы хи-квадрат (степени свободы = число бинов - 1 - 2, где 2 — это оцененные среднее и дисперсия).
⚠️ Внимание: Тест хи-квадрат чувствителен к числу бинов. Слишком мало бинов (менее 5) — тест теряет мощность; слишком много (более 15) — становится излишне строгим. Оптимально: 5-10 бинов с ожидаемой частотой ≥ 5 в каждом.
Когда использовать хи-квадрат:
- ✔️ Данные дискретные или сгруппированные (например, результаты опроса по шкале Likert).
- ✔️ Выборка большая (n > 100), и визуальные методы не дают чёткой картины.
- ❌ Не подходит для малых выборок (n < 30) — тест становится ненадёжным.
6. Практические рекомендации: что делать, если данные ненормальные?
Обнаружили отклонения от нормальности? Не паникуйте — есть несколько способов исправить ситуацию:
Способы трансформации данных:
- 🔄 Логарифмирование:
=ЛН(диапазон)— помогает при правосторонней асимметрии (например, доходы, время реакции). - √ Квадратный корень:
=КОРЕНЬ(диапазон)— для счётов (например, количество покупок). - 📉 Обратная величина:
=1/диапазон— для данных с левосторонней асимметрией. - 🎯 Box-Cox преобразование (требует надстройки): автоматически подбирает оптимальную трансформацию.
Альтернативные статистические методы:
Если трансформация не помогла или невозможна (например, для порядковых данных), используйте непараметрические тесты:
- 📊 Вместо t-критерия Стьюдента → критерий Манна-Уитни (для независимых выборок) или критерий Вилкоксона (для связанных).
- 📈 Вместо ANOVA → критерий Краскела-Уоллиса.
Когда нормальность не важна:
- 📌 Центральная предельная теорема: если выборка большая (n > 30), среднее арифметическое будет распределено нормально даже при ненормальных исходных данных.
- 📌 Робастные методы: некоторые тесты (например, регрессия) устойчивы к умеренным отклонениям от нормальности.
FAQ: Частые вопросы о проверке нормальности в Excel
Можно ли использовать функцию НОРМ.РАСП() для проверки нормальности?
Нет, НОРМ.РАСП() рассчитывает плотность вероятности для заданных параметров (среднее, стандартное отклонение), но не проверяет, насколько ваши данные соответствуют нормальному распределению. Для проверки нужно сравнивать реальные данные с теоретической кривой (например, через Q-Q plot или тесты).
Какой тест нормальности самый точный?
Зависит от размера выборки:
- n < 50: Шапиро-Уилка (наиболее мощный).
- 50 ≤ n ≤ 1000: Андерсона-Дарлинга или Шапиро-Уилка.
- n > 1000: визуальные методы + оценка эффекта (даже минимальные отклонения будут значимыми, но не всегда критичными).
Что делать, если тесты дают противоречивые результаты?
Такое бывает, когда:
- Выборка пограничного размера (например, n=40 — Шапиро-Уилка показывает нормальность, а Андерсона-Дарлинга — нет).
- Есть выбросы (они сильно влияют на тесты).
Решение:
- Удалите выбросы и повторите тесты.
- Используйте несколько методов (например, Q-Q plot + тест Шапиро-Уилка).
- Оцените практическую значимость: если отклонения минимальны и не влияют на выводы, можно их игнорировать.
Можно ли проверить нормальность в Excel Online?
В Excel Online нет надстроек для тестов Шапиро-Уилка или Андерсона-Дарлинга, но вы можете:
- Использовать визуальные методы (гистограмма, Q-Q plot).
- Рассчитать асимметрию и эксцесс вручную.
- Экспортировать данные в Excel Desktop или использовать внешние инструменты (например, Google Sheets с надстройкой XLMiner).
Как проверить нормальность для нескольких групп одновременно?
Для сравнения нормальности нескольких групп (например, данные по разным отделам):
- Постройте Q-Q plot для каждой группы на одном графике (используйте разные цвета).
- Проведите тест Шапиро-Уилка для каждой группы отдельно.
- Используйте тест Левина для проверки гомоскедастичности (равенства дисперсий) — это косвенный признак нормальности:
=ТЕСТ.ЛЕВИНА(диапазон1;диапазон2)