Выборочная дисперсия в Excel: полное руководство с примерами

Выборочная дисперсия — это статистический показатель, который помогает оценить, насколько сильно значения в вашей выборке отклоняются от среднего. В отличие от генеральной дисперсии (которая рассчитывается для всей совокупности данных), выборочная дисперсия используется, когда у вас есть только часть наблюдений — например, данные опроса 100 человек из миллионного города. В Microsoft Excel этот расчёт можно выполнить несколькими способами, но многие пользователи путают функции или неправильно интерпретируют результаты.

Почему это важно? Представьте, что вы анализируете продажи магазина за месяц. Средний чек — 1500 рублей, но если дисперсия высокая, это значит, что были как покупки на 500 рублей, так и на 5000. Без учёта вариативности вы можете сделать ошибочные выводы о стабильности бизнеса. В этой статье мы разберём все нюансы расчёта выборочной дисперсии в Excel, от базовых функций до обработки больших массивов данных с учётом типичных ошибок.

Вы также узнаете, как отличать несмещённую и смещённую оценки дисперсии, когда использовать каждую из них, и как визуализировать результаты с помощью гистограмм. А в конце статьи вас ждёт FAQ с ответами на самые частые вопросы — например, почему ваш результат не совпадает с ручным расчётом или как обработать данные с пропусками.

📊 Для чего вам нужна выборочная дисперсия?
Анализ бизнес-показателей
Научная работа/диссертация
Учёба (статистика, эконометрика)
Личный проект
Другое

Что такое выборочная дисперсия и зачем она нужна

Выборочная дисперсия (sample variance) — это мера разброса данных в выборке относительно их среднего значения. Она показывает, насколько сильно значения отклоняются от средней величины. Формула расчёта выглядит так:

Формула несмещённой выборочной дисперсии:

s² = Σ(xᵢ - x̄)² / (n - 1)

где:

  • 📊 xᵢ — отдельное значение в выборке;
  • 📍 — среднее арифметическое выборки;
  • 🔢 n — количество наблюдений;
  • 🔄 (n - 1) — поправка Бесселя (используется для несмещённой оценки).

Почему именно (n - 1), а не n? Дело в том, что при работе с выборкой (а не со всей генеральной совокупностью) мы теряем одну степень свободы. Если разделить на n, то получим смещённую оценку — она будет занижать реальную дисперсию. В Excel для несмещённой дисперсии используется функция ДИСП.В (или VAR.S в английской версии), а для смещённой — ДИСП.Г (VAR.P).

Где это применимо на практике?

  • 📈 Финансовый анализ: оценка волатильности цен акций или доходности портфеля;
  • 🏥 Медицина: анализ вариативности показателей здоровья пациентов;
  • 🛒 Маркетинг: изучение разброса покупательской активности;
  • 🎓 Наука: проверка гипотез в исследованиях.

Функции Excel для расчёта выборочной дисперсии

В Excel есть несколько функций для расчёта дисперсии, но не все они подходят для выборочных данных. Давайте разберёмся, какую функцию и когда использовать.

Основные функции:

Функция Описание Когда использовать Английский аналог
ДИСП.В Несмещённая выборочная дисперсия (делит на n-1) Когда у вас выборка, а не вся генеральная совокупность VAR.S
ДИСП.Г Смещённая дисперсия (делит на n) Когда у вас все данные совокупности (редко) VAR.P
ДИСПР Устаревшая функция (аналог ДИСП.Г) Не рекомендуется к использованию VARP
КВАДРОТКЛ.В Стандартное отклонение (квадратный корень из дисперсии) Когда нужен разброс в тех же единицах, что и данные STDEV.S

Пример использования ДИСП.В:

=ДИСП.В(A2:A100)

где A2:A100 — диапазон с вашими данными.

Если вам нужно рассчитать дисперсию для нескольких столбцов одновременно, используйте формулу массива:

=СРЗНАЧ(ДИСП.В(A2:A100); ДИСП.В(B2:B100))
Почему в старых версиях Excel нет функции ДИСП.В?

В Excel 2007 и ранее вместо ДИСП.В использовалась функция ДИСП (аналог VAR в английской версии), которая также рассчитывала несмещённую дисперсию. В новых версиях (начиная с 2010) её заменили на ДИСП.В для большей ясности.

Пошаговая инструкция: как посчитать выборочную дисперсию

Давайте разберём процесс на конкретном примере. Предположим, у нас есть данные о росте 10 случайно выбранных студентов (в см):

Исходные данные:

Рост (см)
1172
2168
3180
4175
5165
6178
7170
8182
9169
10176

Шаг 1. Введите данные

  • 📝 Введите значения роста в столбец A2:A11 (например, как в таблице выше).

Шаг 2. Рассчитайте среднее значение

  • 🧮 В ячейке B1 введите формулу:
    =СРЗНАЧ(A2:A11)

Шаг 3. Используйте функцию ДИСП.В

  • 📊 В ячейке B2 введите:
    =ДИСП.В(A2:A11)

Шаг 4. Проверьте результат

  • 🔍 В нашем примере дисперсия составит ≈ 30,25 (см²). Это означает, что разброс роста в выборке достаточно небольшой.

Убедитесь, что в диапазоне нет пустых ячеек|Сравните результат с ручным расчётом (см. следующий раздел)|Проверьте, что используется ДИСП.В, а не ДИСП.Г|Удалите выбросы (например, рост 200 см), если они искажают результат-->

Если вы хотите увидеть стандартное отклонение (в тех же единицах, что и исходные данные), используйте:

=КВАДРОТКЛ.В(A2:A11)

В нашем случае это будет ≈ 5,5 см.

Ручной расчёт vs. Excel: почему результаты могут отличаться

Иногда пользователи сталкиваются с тем, что дисперсия, посчитанная вручную, не совпадает с результатом Excel. Давайте разберёмся, где может крыться ошибка.

Частые причины расхождений:

  • 🔄 Деление на n vs. n-1: Если вы вручную делите на n (количество наблюдений), а Excel использует n-1 (для ДИСП.В), результаты будут разными. Например, для нашей выборки:
    Сумма квадратов отклонений = 272,5
    

    n = 10 → 272,5 / 10 = 27,25 (смещённая)

    n-1 = 9 → 272,5 / 9 ≈ 30,25 (несмещённая)

  • 📉 Пропущенные значения: Excel автоматически игнорирует пустые ячейки, а при ручном расчёте их можно случайно учесть.
  • 🧮 Округление: Excel хранит до 15 знаков после запятой, а вручную вы могли округлить промежуточные результаты.

Как проверить?

  1. Посчитайте среднее значение (СРЗНАЧ).
  2. Для каждого значения найдите отклонение от среднего: =A2-$B$1 (где B1 — среднее).
  3. Возведите отклонения в квадрат: =СТЕПЕНЬ(A2-$B$1; 2).
  4. Суммируйте квадраты отклонений: =СУММ(диапазон_квадратов).
  5. Разделите сумму на n-1 и сравните с ДИСП.В.

Типичные ошибки и как их избежать

Даже опытные пользователи Excel иногда допускают ошибки при расчёте дисперсии. Вот самые распространённые из них:

Ошибка 1: Использование ДИСП.Г вместо ДИСП.В

⚠️ Внимание: Если у вас выборка (а не вся генеральная совокупность), функция ДИСП.Г занизит реальную дисперсию. Например, для 10 значений разница между ДИСП.В и ДИСП.Г составит ~10%.

Ошибка 2: Наличие текстовых значений

  • 📛 Если в диапазоне есть ячейка с текстом (например, "Н/Д"), Excel проигнорирует её, но количество наблюдений (n) уменьшится. Это исказит результат.
  • 🔍 Решение: Используйте =ЕЧИСЛО() для проверки данных или функцию =ЕОШИБКА().

Ошибка 3: Неучёт выбросов

  • 🎯 Один аномально большой или маленький показатель (выброс) может сильно увеличить дисперсию. Например, если в нашей выборке роста добавить значение "200 см", дисперсия вырастет с 30,25 до 120,75!
  • 🛠 Решение: Используйте =КВАРТИЛЬ() для поиска выбросов или удалите их вручную.

Ошибка 4: Неправильный диапазон

  • 📏 Если в формуле указать A1:A11 вместо A2:A11, и в A1 будет заголовок, Excel проигнорирует его, но это может запутать при дальнейшем анализе.
  • 🔄 Решение: Всегда используйте именованные диапазоны или проверяйте границы вручную.
Как найти выбросы автоматически?

Используйте правило "трёх сигм":

1. Рассчитайте среднее (СРЗНАЧ) и стандартное отклонение (КВАДРОТКЛ.В).

2. Найдите границы: =СРЗНАЧ - 3*КВАДРОТКЛ.В и =СРЗНАЧ + 3*КВАДРОТКЛ.В.

3. Все значения за этими границами — потенциальные выбросы.

Продвинутые приёмы: дисперсия по группам и динамические массивы

Если вам нужно рассчитать дисперсию для нескольких групп данных (например, рост студентов по факультетам), можно использовать функции массива или сводные таблицы.

Метод 1: Функция ДИСП.В с условием

Предположим, у вас в столбце A — рост, а в столбце B — факультет. Чтобы найти дисперсию роста для факультета "Экономика":

=ДИСП.В(ЕСЛИ(B2:B100="Экономика"; A2:A100))
Внимание: Это формула массива — в новых версиях Excel (365, 2021) она работает автоматически, а в старых (2019 и ранее) её нужно вводить с Ctrl+Shift+Enter.

Метод 2: Сводная таблица

  1. Выделите данные (включая заголовки).
  2. Перейдите в Вставка → Сводная таблица.
  3. В поле "Строки" добавьте "Факультет".
  4. В поле "Значения" добавьте "Рост", но выберите Параметры полей значений → Дополнительные вычисления → Дисперсия.

Метод 3: Power Query (для больших данных)

  • 📊 Перейдите в Данные → Получить данные → Из таблицы/диапазона.
  • 🔄 В редакторе Power Query выберите столбец с данными → Статистика → Дисперсия.
  • 📤 Группируйте по категориям с помощью Группировка → Группировать по.

Визуализация дисперсии: гистограммы и графики

Числовое значение дисперсии не всегда интуитивно понятно. Чтобы лучше понять разброс данных, построим гистограмму и ящик с усами (box plot).

Гистограмма:

  1. Выделите данные (например, A2:A11).
  2. Перейдите в Вставка → Гистограмма.
  3. Настройте количество корзин (интервалов) в Формат оси → Параметры оси.

Ящик с усами (box plot):

В Excel нет встроенной опции для box plot, но его можно создать вручную:

  1. Рассчитайте квартили:
    =КВАРТИЛЬ.ВКЛ(A2:A11; 0)  // Минимум
    

    =КВАРТИЛЬ.ВКЛ(A2:A11; 1) // 25-й перцентиль

    =КВАРТИЛЬ.ВКЛ(A2:A11; 2) // Медиана

    =КВАРТИЛЬ.ВКЛ(A2:A11; 3) // 75-й перцентиль

    =КВАРТИЛЬ.ВКЛ(A2:A11; 4) // Максимум

  2. Постройте график "с областями" на основе этих значений.

Интерпретация:

  • 📊 Чем шире "ящик" на графике, тем больше межквартильный размах (IQR) — это показывает разброс центральных 50% данных.
  • 🔍 "Усы" (линии от ящика) показывают размах данных без выбросов. Если они длинные — дисперсия высокая.

FAQ: Ответы на частые вопросы

❓ Почему моя дисперсия отрицательная?

Дисперсия не может быть отрицательной по определению (так как это сумма квадратов). Если вы получили отрицательное значение, скорее всего:

  • 🔄 Вы использовали формулу не для дисперсии, а для ковариации (например, КОВАРИАЦИЯ.В).
  • 📉 В данных есть ошибки (текстовые значения, формулы с ошибками).

Проверьте формулу и исходные данные.

❓ Можно ли рассчитать дисперсию для нечисловых данных?

Нет, дисперсия рассчитывается только для количественных данных. Если у вас категориальные данные (например, "Да/Нет"), используйте другие меры вариативности, например:

  • 📊 Индекс разнообразия Симпсона;
  • 🔢 Энтропия Шенона (для оценки неопределённости).
❓ Как посчитать дисперсию для всей генеральной совокупности?

Если у вас все данные совокупности (а не выборка), используйте функцию ДИСП.Г (VAR.P). Она делит сумму квадратов отклонений на n, а не на n-1:

=ДИСП.Г(A2:A100)

Это даст смещённую оценку, но она будет точной для полной совокупности.

❓ Можно ли рассчитать дисперсию по фильтру?

Да! Например, чтобы найти дисперсию только для видимых ячеек после фильтрации:

  1. Примените фильтр к данным.
  2. Используйте функцию ПРОМЕЖУТОЧНЫЕ.ИТОГИ с кодом 10 (дисперсия):
=ПРОМЕЖУТОЧНЫЕ.ИТОГИ(10; A2:A100)

Она автоматически проигнорирует скрытые строки.

❓ Как связаны дисперсия и стандартное отклонение?

Стандартное отклонение (КВАДРОТКЛ.В) — это квадратный корень из дисперсии. Оно показывает разброс в тех же единицах, что и исходные данные (например, если дисперсия в см², то стандартное отклонение — в см). Формула:

=КОРЕНЬ(ДИСП.В(A2:A100))

или проще:

=КВАДРОТКЛ.В(A2:A100)