Проверка правила трёх сигм в Excel: формулы, графики и практические примеры

Чтобы проверить правило трёх сигм в Microsoft Excel, сначала нужно рассчитать среднее арифметическое (=СРЗНАЧ()), стандартное отклонение (=СТАНДОТКЛОН.В()) и границы интервала [μ-3σ; μ+3σ]. Основная ошибка пользователей — использование неправильной функции для выборки (например, СТАНДОТКЛОН.Г вместо СТАНДОТКЛОН.В), что искажает результаты на 10-15%. Если ваши данные содержат выбросы за пределами ±3σ, это может указывать либо на аномалии в процессе, либо на необходимость пересчёта с учётом генеральной совокупности.

В этой статье разберём три метода проверки: через формулы, с помощью гистограммы и автоматизированный анализ с использованием надстройки Analysis ToolPak. Особое внимание уделим интерпретации результатов — когда отклонения от правила сигнализируют о проблемах, а когда являются нормой для несимметричных распределений.

Что такое правило трёх сигм и когда его применяют

Правило трёх сигм (или 68-95-99.7 rule) — эмпирическое утверждение о нормальном распределении данных: ~68% значений попадают в интервал [μ-σ; μ+σ], ~95% — в [μ-2σ; μ+2σ], и ~99.7% — в [μ-3σ; μ+3σ]. В Excel это правило проверяют для:

  • 📊 Контроля качества производства (выявление брака)
  • 📈 Финансового анализа (оценка рисков и волатильности)
  • 🔬 Научных исследований (проверка гипотез о распределении данных)
  • 📉 Обнаружения аномалий в больших наборах данных

Важно: правило работает только для нормально распределённых данных. Если ваш набор имеет асимметрию или эксцесс, доля значений за пределами ±3σ может значительно отличаться. Например, для логнормального распределения в интервал ±3σ попадёт лишь ~97% данных.

Подготовка данных: требования к таблице

Перед расчётами убедитесь, что ваши данные соответствуют трём критериям:

  1. Все значения — числовые (нет текста, ошибок #ЗНАЧ! или пустых ячеек).
  2. Выборка содержит не менее 30 наблюдений (для малых выборок правило трёх сигм теряет точность).
  3. Данные расположены в одном столбце или строке без разрывов.

Пример корректной таблицы:

Значение (X)
112.4
211.8
313.1
......
5010.9
⚠️ Внимание: Если в данных есть выбросы (например, значение 100 при среднем 12), они исказят стандартное отклонение. В таком случае сначала очистите выборку или используйте =УСЕЧЕННОЕСР() для устойчивой оценки.

Метод 1: Ручной расчёт с формулами Excel

Самый универсальный способ — использовать встроенные функции. Предположим, ваши данные находятся в диапазоне A2:A51:

  1. Рассчитайте среднее (=СРЗНАЧ(A2:A51)).
  2. Найдите стандартное отклонение (=СТАНДОТКЛОН.В(A2:A51) для выборки или =СТАНДОТКЛОН.Г(A2:A51) для генеральной совокупности).
  3. Вычислите границы интервала:
    • Нижняя: =СРЗНАЧ-3*СТАНДОТКЛОН
    • Верхняя: =СРЗНАЧ+3*СТАНДОТКЛОН
  • Подсчитайте количество значений за пределами интервала:
    =СЧЁТЕСЛИ(A2:A51; "<"&нижняя_граница) + СЧЁТЕСЛИ(A2:A51; ">"&верхняя_граница)
  • Если результат пункта 4 превышает 0.3% от общего числа наблюдений (для нормального распределения), это повод проверить данные на аномалии.

    1. Данные очищены от текста и ошибок|2. Выбрана правильная функция стандартного отклонения (В или Г)|3. Формулы границ используют абсолютные ссылки ($A$1)|4. Проверена точность расчётов (округление до 4 знаков после запятой)

    -->

    Метод 2: Визуализация с гистограммой и линиями ±3σ

    Графический анализ помогает быстро оценить соответствие правилу. Создайте гистограмму с наложенными границами:

    1. Выделите данные и вставьте Гистограмму (вкладка Вставка).
    2. Добавьте линию среднего:
      • Щёлкните по графику → Элементы диаграммыЛиния среднего.
    3. Добавьте вертикальные линии для ±3σ:
      • В меню Макет выберите Аналитические линииДополнительные параметры.
      • Укажите значения μ-3σ и μ+3σ вручную.

    Критический признак нарушения правила: если на гистограмме за пределами линий ±3σ находится более 1-2 столбцов (для выборки >100 наблюдений), распределение не является нормальным.

    Как автоматизировать добавление линий ±3σ

    1. Создайте вспомогательную таблицу с границами.

    2. Вставьте на график серию данных типа "Линия" с этими значениями.

    3. Настройте ось X для отображения линий как вертикальных маркеров.

    Метод 3: Автоматизированный анализ с Analysis ToolPak

    Надстройка Analysis ToolPak ускоряет расчёты. Чтобы её использовать:

    1. Активируйте надстройку:
      • ФайлПараметрыНадстройкиПерейти → отметьте Пакет анализа.
  • Запустите Анализ данных (вкладка Данные) → Описательная статистика.
  • Укажите входной диапазон и выберите параметры:
    Итоговая статистика
    

    Уровень надёжности: 99.7%

  • В результатах найдите строки Среднее, Стандартная ошибка и Доверительный уровень(99.7%). Сравните границы доверительного интервала с вашими данными.

    ⚠️ Внимание: Analysis ToolPak использует СТАНДОТКЛОН.Г (генеральная совокупность). Если ваши данные — выборка, умножьте стандартное отклонение на корректировочный коэффициент =КОРЕНЬ(N/(N-1)), где N — размер выборки.

    Ручные формулы|Гистограмма с границами|Analysis ToolPak|Собственный скрипт на VBA-->

    Интерпретация результатов: когда данные не подчиняются правилу

    Если доля значений за пределами ±3σ превышает 0.3%, возможны три причины:

    ПричинаПризнакиДействия
    Ненормальное распределениеАсимметрия >1 или эксцесс >3Примените непараметрические тесты (например, критерий Манна-Уитни)
    Выбросы в данных1-2 значения сильно отличаются от остальныхИсключите аномалии или используйте робастные оценки (медиана, MAD)
    Малый объём выборкиN < 30Увеличьте выборку или используйте t-распределение Стьюдента

    Для производственных данных отклонение от правила часто указывает на:

    • 🔧 Разладку оборудования (внезапные скачки значений)
    • 📦 Дефекты сырья (систематическое смещение среднего)
    • 👷 Человеческий фактор (ошибки измерений)

    Распространённые ошибки и как их избежать

    Even опытные пользователи Excel допускают эти ошибки:

    1. Путают СТАНДОТКЛОН.В и СТАНДОТКЛОН.Г:
      • — для выборки (делит на N-1), — для генеральной совокупности (делит на N).
    2. Игнорируют округление:
      • Стандартное отклонение округляйте до 4 знаков, иначе границы ±3σ будут неточными.
    3. Не проверяют нормальность:
      • Без теста Шапиро-Уилка или Q-Q графика правило трёх сигм применять нельзя.

    Пример ошибки: если ваша выборка — 20 измерений, а вы использовали СТАНДОТКЛОН.Г, стандартное отклонение будет занижено на ~5%, что исказит границы интервала.

    FAQ: Частые вопросы о правиле трёх сигм в Excel

    Можно ли применять правило к ненормальным распределениям?

    Технически — да, но интерпретация будет иной. Например, для экспоненциального распределения в интервал ±3σ попадёт ~95% данных (вместо 99.7%). Используйте чебышевскую неравенство для оценки долей: не более 1/9 (≈11%) значений будет за пределами ±3σ для любого распределения.

    Как автоматизировать проверку для больших данных (10 000+ строк)?

    Используйте Power Query для предобработки и DAX в Power Pivot:

    
    

    // Создайте меру в Power Pivot:

    Выбросы =

    VAR Среднее = AVERAGE(Таблица[Значение])

    VAR СтОткл = STDEV.P(Таблица[Значение])

    VAR Нижняя = Среднее - 3*СтОткл

    VAR Верхняя = Среднее + 3*СтОткл

    RETURN

    COUNTROWS(FILTER(Таблица; Таблица[Значение] < Нижняя || Таблица[Значение] > Верхняя))

    Чем правило трёх сигм отличается от правила шести сигм?

    Правило шести сигм (μ±6σ) покрывает 99.9999998% данных и используется в методологии Six Sigma для контроля дефектов (цель — не более 3.4 дефектов на миллион возможностей). В Excel его проверяют аналогично, но с коэффициентом 6 вместо 3. Однако на практике такое строгое правило применимо только к высокоточным процессам (например, производство микрочипов).