Проверка данных на нормальность распределения — ключевой этап перед применением многих статистических методов, от t-теста Стьюдента до регрессионного анализа. Без этого шага результаты могут оказаться некорректными, а выводы — ошибочными. Excel, несмотря на ограниченные статистические возможности по сравнению с R или Python, позволяет выполнить такую проверку несколькими способами — от визуальных до строгих математических тестов.
Многие пользователи ошибочно полагают, что для этого нужны специализированные программы вроде SPSS или Statistica. На деле же даже в стандартном Excel 2019/2021/365 (без надстроек!) можно оценить нормальность с помощью встроенных инструментов: гистограмм, описательной статистики и даже Q-Q графиков (квантиль-квантиль). Главное — понимать ограничения каждого метода и правильно интерпретировать результаты.
В этой статье мы разберём 5 практических способов проверки нормальности в Excel, от самых простых до продвинутых, с примерами на реальных данных. Вы узнаете, когда достаточно визуального анализа, а когда требуются формальные критерии — и как не допустить типичных ошибок при их применении.
1. Визуальный анализ: гистограмма и кривая нормального распределения
Начнём с самого доступного метода — построения гистограммы с наложенной кривой нормального распределения. Этот способ не даёт точных числовых результатов, но позволяет быстро оценить, насколько данные "похожи" на нормальные.
Для построения гистограммы в Excel:
- Выделите диапазон данных (например, столбец
A1:A100). - Перейдите на вкладку
Вставка → Вставить гистограмму(илиВставка → Графики → Гистограммав новых версиях). - Настройте количество корзин (
-bin) — оптимально5-10для выборок до 100 значений.
Чтобы добавить кривую нормального распределения:
- 📊 Используйте
Анализ данных → Гистограмма(если включена надстройка Пакет анализа). - 🔍 В параметрах гистограммы отметьте
Вывод графика. - 📉 Вручную добавьте линию тренда с уравнением нормального распределения (через
Добавление элемента диаграммы → Линия тренда).
⚠️ Внимание: Гистограмма с малым числом корзин (<5) может скрыть реальную форму распределения, а с большим (>15) — создать ложное впечатление "зубчатости". Для выборок<30элементов визуальный анализ ненадёжен!
Признаки нормального распределения на гистограмме:
- 🔔 Симметрия относительно центра (левая и правая части зеркальны).
- 📈 Один пик в центре (унимодальность).
- 🌀 "Хвосты" постепенно убывают к краям (нет резких обрывов).
2. Описательная статистика: асимметрия и эксцесс
Числовые показатели асимметрии (skewness) и эксцесса (kurtosis) помогают количественно оценить отклонение от нормального распределения. В идеально нормальном распределении:
- 📏 Асимметрия =
0(симметричное распределение). - 🎯 Эксцесс =
0(хвосты средней "толщины").
Чтобы рассчитать эти показатели в Excel:
- Используйте функции:
=СКОС(диапазон) // асимметрия=ЭКСЦЕСС(диапазон) // эксцесс
- Для оценки значимости отклонений сравните полученные значения с их стандартными ошибками:
=СТАНДОТКЛОН.В(диапазон)/КОРЕНЬ(СЧЁТ(диапазон)) // ошибка асимметрии=24/СЧЁТ(диапазон) // приближённая ошибка эксцесса
Критерий интерпретации:
- 🔍 Если
|асимметрия| < 2 × ошибка асимметрии→ распределение симметрично. - 🔍 Если
|эксцесс| < 2 × ошибка эксцесса→ хвосты не слишком тяжёлые/лёгкие.
| Показатель | Формула в Excel | Нормальное распределение | Интерпретация отклонений |
|---|---|---|---|
| Асимметрия | =СКОС(A1:A100) |
0 |
>0: правый хвост длиннее<0: левый хвост длиннее |
| Эксцесс | =ЭКСЦЕСС(A1:A100) |
0 |
>0: тяжёлые хвосты<0: лёгкие хвосты |
| Ст. ошибка асимметрии | =СТАНДОТКЛОН.В(A1:A100)/КОРЕНЬ(СЧЁТ(A1:A100)) |
— | Сравнить с модулем асимметрии |
⚠️ Внимание: Для малых выборок (n < 50) стандартные ошибки асимметрии и эксцесса велики, поэтому даже значительные отклонения от нуля могут быть несущественными. В таких случаях визуальный анализ надёжнее!
3. Q-Q график (квантиль-квантиль) в Excel
Q-Q график (Quantile-Quantile plot) — один из самых надёжных визуальных методов проверки нормальности. Он сравнивает квантили вашей выборки с квантилями теоретического нормального распределения. Если точки лежат на прямой линии — распределение нормальное.
В Excel Q-Q график строится вручную:
- Отсортируйте данные по возрастанию (например, в столбце
A). - Рассчитайте эмпирические квантили по формуле:
=ПЕРСЕНТИЛЬ.ВКЛ($A$1:$A$100; (ПОРЯДОК(A1; $A$1:$A$100; 0)-0,5)/СЧЁТ($A$1:$A$100)) - Рассчитайте теоретические квантили нормального распределения:
=НОРМ.СТ.ОБР((ПОРЯДОК(A1; $A$1:$A$100; 0)-0,5)/СЧЁТ($A$1:$A$100)) - Постройте график рассеяния (
Вставка → Точечная) по парам "теоретический квантиль — эмпирический квантиль".
Признаки нормального распределения на Q-Q графике:
- 📌 Точки лежат на прямой линии
y = x. - 🔄 Незначительные отклонения на краях ("хвостах") допустимы.
- ❌ Сильные искривления или "ступеньки" указывают на ненормальность.
Почему Q-Q график лучше гистограммы?
Q-Q график менее чувствителен к размеру корзин и лучше показывает отклонения в "хвостах" распределения. Гистограмма же зависит от субъективного выбора числа интервалов и может вводить в заблуждение при малых выборках.
4. Формальные тесты на нормальность: Шапиро-Уилка и Колмогорова-Смирнова
Для строгой проверки нормальности используются статистические тесты. В Excel без надстроек доступен только тест Шапиро-Уилка (через Пакет анализа), но можно вручную реализовать и другие критерии.
Тест Шапиро-Уилка (Shapiro-Wilk test) — самый мощный тест для малых выборок (n < 50):
- Активируйте Пакет анализа (
Файл → Параметры → Надстройки → Пакет анализа). - Выберите
Анализ данных → Тест Шапиро-Уилка(в некоторых версиях может отсутствовать — см. альтернативы ниже). - Укажите входной диапазон и параметры вывода.
Альтернативные тесты (требуют ручного расчёта):
- 📊 Критерий Колмогорова-Смирнова (KS-test): сравнивает эмпирическую функцию распределения с теоретической нормальной.
=МАКС(ABS(ЧАСТОТА(данные; корзины)/СЧЁТ(данные) - НОРМ.РАСП(корзины; СРЗНАЧ(данные); СТАНДОТКЛОН.В(данные); 1))) - 🔢 Критерий хи-квадрат (Chi-square test): группирует данные и сравнивает наблюдаемые и ожидаемые частоты.
Интерпретация результатов:
- 🔍 Если
p-value > 0.05→ гипотеза о нормальности не отвергается. - 🔍 Если
p-value ≤ 0.05→ распределение значимо отличается от нормального.
⚠️ Внимание: Тест Шапиро-Уилка крайне чувствителен к выбросам! Один аномальный результат (например, опечатка в данных) может исказить выводы. Всегда очищайте данные от выбросов перед тестированием.
Удалить выбросы (значения за 3σ от среднего)|Проверить на пропуски (функция =ЕПУСТО())|Убедиться в однородности выборки|Привести данные к одному масштабу (если нужно)-->
5. Сравнение с другими распределениями: когда нормальность не подходит
Если тесты показывают ненормальность, это не всегда проблема. Многие статистические методы (например, непараметрические тесты) не требуют нормального распределения. Важно понимать, какое именно распределение у ваших данных:
- 📉 Логнормальное: асимметрия > 0, хвост вправо (например, доходы населения).
- 🔺 Экспоненциальное: резкий спад вправо (время безотказной работы техники).
- 🔄 Бимодальное: два пика (смесь двух нормальных распределений).
Для идентификации альтернативных распределений в Excel:
- Постройте гистограмму и сравните с типичными формами (см. таблицу ниже).
- Используйте функции:
=ЛОГНОРМ.РАСП(x; среднее; ст.откл.) // логнормальное=ЭКСП.РАСП(x; лямбда; ИСТИНА) // экспоненциальное
| Распределение | Признаки | Функция в Excel | Когда встречается |
|---|---|---|---|
| Нормальное | Симметрия, один пик | НОРМ.РАСП |
Рост людей, ошибки измерений |
| Логнормальное | Асимметрия вправо, хвост | ЛОГНОРМ.РАСП |
Доходы, размеры частиц |
| Экспоненциальное | Резкий спад вправо | ЭКСП.РАСП |
Время до отказа, интервалы событий |
| Бимодальное | Два пика | Сумма двух НОРМ.РАСП |
Смешанные группы (например, рост мужчин и женщин) |
Если ваши данные не нормальны, но близки к другому распределению, рассмотрите:
- 🔄 Преобразования: логарифм (для логнормального), квадратный корень.
- 📊 Непараметрические тесты: критерий Манна-Уитни, Краскела-Уоллиса.
- 🔧 Бутстреп: пересчёт статистик на подвыборках (требует VBA или Power Query).
6. Типичные ошибки и как их избежать
Даже опытные аналитики допускают ошибки при проверке нормальности. Вот самые распространённые:
Ошибка 1: Игнорирование размера выборки
- 🔢 Для
n < 30формальные тесты (например, Шапиро-Уилка) часто дают ложные срабатывания. - 🔢 Для
n > 1000даже минимальные отклонения становятся "значимыми" — тесты слишком строги.
⚠️ Внимание: Приn < 20визуальный анализ (Q-Q график) надёжнее любого теста. Приn > 500нормальность почти гарантирована по ЦПТ (центральная предельная теорема), и тесты теряют смысл.
Ошибка 2: Неучёт выбросов
- 🧹 Один выброс может "сломать" тест Шапиро-Уилка. Всегда проверяйте данные на аномалии:
=ЕСЛИ(ABS(A1-СРЗНАЧ($A$1:$A$100))>3*СТАНДОТКЛОН.В($A$1:$A$100); "Выброс"; "")
Ошибка 3: Путаница между распределением данных и распределением остатков
- 📉 Для регрессии важна нормальность остатков, а не исходных данных!
- 🔄 Всегда проверяйте остатки после построения модели.
Ошибка 4: Использование устаревших методов
- ❌ Избегайте теста Лиллиефорса (устарел) и графика P-P plot (менее информативен, чем Q-Q).
- ✅ Предпочитайте Q-Q график + тест Шапиро-Уилка для малых выборок и асимметрию/эксцесс для больших.
FAQ: Частые вопросы о проверке нормальности в Excel
Можно ли проверить нормальность в Excel Online?
Нет, Excel Online не поддерживает Пакет анализа и большинства статистических функций (например, СКОС или ЭКСЦЕСС). Для полноценного анализа используйте десктопную версию или Google Sheets с надстройками.
Как проверить нормальность для нескольких столбцов одновременно?
Создайте макрос VBA для автоматического тестирования или используйте Power Query:
- Загрузите данные в Power Query (
Данные → Получить данные → Из таблицы/диапазона). - Добавьте пользовательский столбец с функцией
=Excel.CurrentWorkbook(){[Column]}[СКОС]. - Повторите для эксцесса и других показателей.
Что делать, если данные не нормальны, но нужен t-тест?
Альтернативы:
- 🔄 Примените преобразование (логарифм, корень).
- 📊 Используйте непараметрический аналог (тест Манна-Уитни вместо t-теста).
- 🔧 Увеличьте размер выборки — при
n > 30t-тест устойчив к отклонениям от нормальности.
Почему Q-Q график в Excel получается "ступеньками"?
Это типично для малых выборок (n < 20) или данных с повторяющимися значениями. Решения:
- 🔢 Увеличьте выборку.
- 📊 Добавьте случайный шум к повторяющимся значениям (например,
=A1+СЛУЧМЕЖДУ(-0.01;0.01)).
Как автоматизировать проверку нормальности для новых данных?
Создайте шаблон Excel с:
- 📈 Заранее настроенными гистограммами и Q-Q графиками.
- 🔢 Формулами для асимметрии/эксцесса.
- 🤖 Макросом VBA для запуска теста Шапиро-Уилка по кнопке.
Пример кода VBA для автоматического теста:
Sub ShapiroWilkTest()
Dim dataRange As Range
Set dataRange = Selection
Application.Run "ATPVBAEN.XLAM!Shapiro", dataRange.Address, 1
End Sub