Чтобы проверить правило трёх сигм в Microsoft Excel, сначала нужно рассчитать среднее арифметическое (=СРЗНАЧ()), стандартное отклонение (=СТАНДОТКЛОН.В()) и границы интервала [μ-3σ; μ+3σ]. Основная ошибка пользователей — использование неправильной функции для выборки (например, СТАНДОТКЛОН.Г вместо СТАНДОТКЛОН.В), что искажает результаты на 10-15%. Если ваши данные содержат выбросы за пределами ±3σ, это может указывать либо на аномалии в процессе, либо на необходимость пересчёта с учётом генеральной совокупности.
В этой статье разберём три метода проверки: через формулы, с помощью гистограммы и автоматизированный анализ с использованием надстройки Analysis ToolPak. Особое внимание уделим интерпретации результатов — когда отклонения от правила сигнализируют о проблемах, а когда являются нормой для несимметричных распределений.
Что такое правило трёх сигм и когда его применяют
Правило трёх сигм (или 68-95-99.7 rule) — эмпирическое утверждение о нормальном распределении данных: ~68% значений попадают в интервал [μ-σ; μ+σ], ~95% — в [μ-2σ; μ+2σ], и ~99.7% — в [μ-3σ; μ+3σ]. В Excel это правило проверяют для:
- 📊 Контроля качества производства (выявление брака)
- 📈 Финансового анализа (оценка рисков и волатильности)
- 🔬 Научных исследований (проверка гипотез о распределении данных)
- 📉 Обнаружения аномалий в больших наборах данных
Важно: правило работает только для нормально распределённых данных. Если ваш набор имеет асимметрию или эксцесс, доля значений за пределами ±3σ может значительно отличаться. Например, для логнормального распределения в интервал ±3σ попадёт лишь ~97% данных.
Подготовка данных: требования к таблице
Перед расчётами убедитесь, что ваши данные соответствуют трём критериям:
- Все значения — числовые (нет текста, ошибок
#ЗНАЧ!или пустых ячеек). - Выборка содержит не менее 30 наблюдений (для малых выборок правило трёх сигм теряет точность).
- Данные расположены в одном столбце или строке без разрывов.
Пример корректной таблицы:
| № | Значение (X) |
|---|---|
| 1 | 12.4 |
| 2 | 11.8 |
| 3 | 13.1 |
| ... | ... |
| 50 | 10.9 |
⚠️ Внимание: Если в данных есть выбросы (например, значение 100 при среднем 12), они исказят стандартное отклонение. В таком случае сначала очистите выборку или используйте =УСЕЧЕННОЕСР() для устойчивой оценки.
Метод 1: Ручной расчёт с формулами Excel
Самый универсальный способ — использовать встроенные функции. Предположим, ваши данные находятся в диапазоне A2:A51:
- Рассчитайте среднее (
=СРЗНАЧ(A2:A51)). - Найдите стандартное отклонение (
=СТАНДОТКЛОН.В(A2:A51)для выборки или=СТАНДОТКЛОН.Г(A2:A51)для генеральной совокупности). - Вычислите границы интервала:
- Нижняя:
=СРЗНАЧ-3*СТАНДОТКЛОН - Верхняя:
=СРЗНАЧ+3*СТАНДОТКЛОН
- Нижняя:
=СЧЁТЕСЛИ(A2:A51; "<"&нижняя_граница) + СЧЁТЕСЛИ(A2:A51; ">"&верхняя_граница)
Если результат пункта 4 превышает 0.3% от общего числа наблюдений (для нормального распределения), это повод проверить данные на аномалии.
1. Данные очищены от текста и ошибок|2. Выбрана правильная функция стандартного отклонения (В или Г)|3. Формулы границ используют абсолютные ссылки ($A$1)|4. Проверена точность расчётов (округление до 4 знаков после запятой)
-->
Метод 2: Визуализация с гистограммой и линиями ±3σ
Графический анализ помогает быстро оценить соответствие правилу. Создайте гистограмму с наложенными границами:
- Выделите данные и вставьте
Гистограмму(вкладка Вставка). - Добавьте линию среднего:
- Щёлкните по графику → Элементы диаграммы → Линия среднего.
- Добавьте вертикальные линии для ±3σ:
- В меню Макет выберите Аналитические линии → Дополнительные параметры.
- Укажите значения
μ-3σиμ+3σвручную.
Критический признак нарушения правила: если на гистограмме за пределами линий ±3σ находится более 1-2 столбцов (для выборки >100 наблюдений), распределение не является нормальным.
Как автоматизировать добавление линий ±3σ
1. Создайте вспомогательную таблицу с границами.
2. Вставьте на график серию данных типа "Линия" с этими значениями.
3. Настройте ось X для отображения линий как вертикальных маркеров.
Метод 3: Автоматизированный анализ с Analysis ToolPak
Надстройка Analysis ToolPak ускоряет расчёты. Чтобы её использовать:
- Активируйте надстройку:
- Файл → Параметры → Надстройки → Перейти → отметьте Пакет анализа.
Итоговая статистика
Уровень надёжности: 99.7%
В результатах найдите строки Среднее, Стандартная ошибка и Доверительный уровень(99.7%). Сравните границы доверительного интервала с вашими данными.
⚠️ Внимание: Analysis ToolPak используетСТАНДОТКЛОН.Г(генеральная совокупность). Если ваши данные — выборка, умножьте стандартное отклонение на корректировочный коэффициент=КОРЕНЬ(N/(N-1)), где N — размер выборки.
Ручные формулы|Гистограмма с границами|Analysis ToolPak|Собственный скрипт на VBA-->
Интерпретация результатов: когда данные не подчиняются правилу
Если доля значений за пределами ±3σ превышает 0.3%, возможны три причины:
| Причина | Признаки | Действия |
|---|---|---|
| Ненормальное распределение | Асимметрия >1 или эксцесс >3 | Примените непараметрические тесты (например, критерий Манна-Уитни) |
| Выбросы в данных | 1-2 значения сильно отличаются от остальных | Исключите аномалии или используйте робастные оценки (медиана, MAD) |
| Малый объём выборки | N < 30 | Увеличьте выборку или используйте t-распределение Стьюдента |
Для производственных данных отклонение от правила часто указывает на:
- 🔧 Разладку оборудования (внезапные скачки значений)
- 📦 Дефекты сырья (систематическое смещение среднего)
- 👷 Человеческий фактор (ошибки измерений)
Распространённые ошибки и как их избежать
Even опытные пользователи Excel допускают эти ошибки:
- Путают СТАНДОТКЛОН.В и СТАНДОТКЛОН.Г:
.В— для выборки (делит на N-1),.Г— для генеральной совокупности (делит на N).
- Игнорируют округление:
- Стандартное отклонение округляйте до 4 знаков, иначе границы ±3σ будут неточными.
- Не проверяют нормальность:
- Без теста Шапиро-Уилка или Q-Q графика правило трёх сигм применять нельзя.
Пример ошибки: если ваша выборка — 20 измерений, а вы использовали СТАНДОТКЛОН.Г, стандартное отклонение будет занижено на ~5%, что исказит границы интервала.
FAQ: Частые вопросы о правиле трёх сигм в Excel
Можно ли применять правило к ненормальным распределениям?
Технически — да, но интерпретация будет иной. Например, для экспоненциального распределения в интервал ±3σ попадёт ~95% данных (вместо 99.7%). Используйте чебышевскую неравенство для оценки долей: не более 1/9 (≈11%) значений будет за пределами ±3σ для любого распределения.
Как автоматизировать проверку для больших данных (10 000+ строк)?
Используйте Power Query для предобработки и DAX в Power Pivot:
// Создайте меру в Power Pivot:
Выбросы =
VAR Среднее = AVERAGE(Таблица[Значение])
VAR СтОткл = STDEV.P(Таблица[Значение])
VAR Нижняя = Среднее - 3*СтОткл
VAR Верхняя = Среднее + 3*СтОткл
RETURN
COUNTROWS(FILTER(Таблица; Таблица[Значение] < Нижняя || Таблица[Значение] > Верхняя))
Чем правило трёх сигм отличается от правила шести сигм?
Правило шести сигм (μ±6σ) покрывает 99.9999998% данных и используется в методологии Six Sigma для контроля дефектов (цель — не более 3.4 дефектов на миллион возможностей). В Excel его проверяют аналогично, но с коэффициентом 6 вместо 3. Однако на практике такое строгое правило применимо только к высокоточным процессам (например, производство микрочипов).