Выборочная дисперсия в Excel: полное руководство с примерами

Выборочная дисперсия — это статистический показатель, который помогает оценить, насколько сильно значения в вашей выборке отклоняются от среднего. В отличие от генеральной дисперсии (которая рассчитывается для всей совокупности данных), выборочная дисперсия используется, когда у вас есть только часть наблюдений — например, данные опроса 100 человек из миллионного города. В Microsoft Excel этот расчёт можно выполнить несколькими способами, но многие пользователи путают функции или неправильно интерпретируют результаты.

Почему это важно? Представьте, что вы анализируете продажи магазина за месяц. Средний чек — 1500 рублей, но если дисперсия высокая, это значит, что были как покупки на 500 рублей, так и на 5000. Без учёта вариативности вы можете сделать ошибочные выводы о стабильности бизнеса. В этой статье мы разберём все нюансы расчёта выборочной дисперсии в Excel, от базовых функций до обработки больших массивов данных с учётом типичных ошибок.

Вы также узнаете, как отличать несмещённую и смещённую оценки дисперсии, когда использовать каждую из них, и как визуализировать результаты с помощью гистограмм. А в конце статьи вас ждёт FAQ с ответами на самые частые вопросы — например, почему ваш результат не совпадает с ручным расчётом или как обработать данные с пропусками.

📊 Для чего вам нужна выборочная дисперсия?

Анализ бизнес-показателей

Научная работа/диссертация

Учёба (статистика, эконометрика)

Личный проект

Другое

Что такое выборочная дисперсия и зачем она нужна

Выборочная дисперсия (sample variance) — это мера разброса данных в выборке относительно их среднего значения. Она показывает, насколько сильно значения отклоняются от средней величины. Формула расчёта выглядит так:

Формула несмещённой выборочной дисперсии:

s² = Σ(xᵢ - x̄)² / (n - 1)

где:

📊 xᵢ — отдельное значение в выборке;
📍 x̄ — среднее арифметическое выборки;
🔢 n — количество наблюдений;
🔄 (n - 1) — поправка Бесселя (используется для несмещённой оценки).

Почему именно (n - 1), а не n? Дело в том, что при работе с выборкой (а не со всей генеральной совокупностью) мы теряем одну степень свободы. Если разделить на n, то получим смещённую оценку — она будет занижать реальную дисперсию. В Excel для несмещённой дисперсии используется функция ДИСП.В (или VAR.S в английской версии), а для смещённой — ДИСП.Г (VAR.P).

Где это применимо на практике?

📈 Финансовый анализ: оценка волатильности цен акций или доходности портфеля;
🏥 Медицина: анализ вариативности показателей здоровья пациентов;
🛒 Маркетинг: изучение разброса покупательской активности;
🎓 Наука: проверка гипотез в исследованиях.

Функции Excel для расчёта выборочной дисперсии

В Excel есть несколько функций для расчёта дисперсии, но не все они подходят для выборочных данных. Давайте разберёмся, какую функцию и когда использовать.

Основные функции:

Функция	Описание	Когда использовать	Английский аналог
`ДИСП.В`	Несмещённая выборочная дисперсия (делит на `n-1`)	Когда у вас выборка, а не вся генеральная совокупность	`VAR.S`
`ДИСП.Г`	Смещённая дисперсия (делит на `n`)	Когда у вас все данные совокупности (редко)	`VAR.P`
`ДИСПР`	Устаревшая функция (аналог `ДИСП.Г`)	Не рекомендуется к использованию	`VARP`
`КВАДРОТКЛ.В`	Стандартное отклонение (квадратный корень из дисперсии)	Когда нужен разброс в тех же единицах, что и данные	`STDEV.S`

Пример использования ДИСП.В:

=ДИСП.В(A2:A100)

где A2:A100 — диапазон с вашими данными.

Если вам нужно рассчитать дисперсию для нескольких столбцов одновременно, используйте формулу массива:

=СРЗНАЧ(ДИСП.В(A2:A100); ДИСП.В(B2:B100))

Почему в старых версиях Excel нет функции ДИСП.В?

В Excel 2007 и ранее вместо ДИСП.В использовалась функция ДИСП (аналог VAR в английской версии), которая также рассчитывала несмещённую дисперсию. В новых версиях (начиная с 2010) её заменили на ДИСП.В для большей ясности.

Пошаговая инструкция: как посчитать выборочную дисперсию

Давайте разберём процесс на конкретном примере. Предположим, у нас есть данные о росте 10 случайно выбранных студентов (в см):

Исходные данные:

№	Рост (см)
1	172
2	168
3	180
4	175
5	165
6	178
7	170
8	182
9	169
10	176

Шаг 1. Введите данные

📝 Введите значения роста в столбец A2:A11 (например, как в таблице выше).

Шаг 2. Рассчитайте среднее значение

🧮 В ячейке B1 введите формулу:
```
=СРЗНАЧ(A2:A11)
```

Шаг 3. Используйте функцию ДИСП.В

📊 В ячейке B2 введите:
```
=ДИСП.В(A2:A11)
```

Шаг 4. Проверьте результат

🔍 В нашем примере дисперсия составит ≈ 30,25 (см²). Это означает, что разброс роста в выборке достаточно небольшой.

Убедитесь, что в диапазоне нет пустых ячеек|Сравните результат с ручным расчётом (см. следующий раздел)|Проверьте, что используется ДИСП.В, а не ДИСП.Г|Удалите выбросы (например, рост 200 см), если они искажают результат-->

Если вы хотите увидеть стандартное отклонение (в тех же единицах, что и исходные данные), используйте:

=КВАДРОТКЛ.В(A2:A11)

В нашем случае это будет ≈ 5,5 см.

Ручной расчёт vs. Excel: почему результаты могут отличаться

Иногда пользователи сталкиваются с тем, что дисперсия, посчитанная вручную, не совпадает с результатом Excel. Давайте разберёмся, где может крыться ошибка.

Частые причины расхождений:

🔄 Деление на n vs. n-1: Если вы вручную делите на n (количество наблюдений), а Excel использует n-1 (для ДИСП.В), результаты будут разными. Например, для нашей выборки:
```
Сумма квадратов отклонений = 272,5
n = 10 → 272,5 / 10 = 27,25 (смещённая)
n-1 = 9 → 272,5 / 9 ≈ 30,25 (несмещённая)
```
📉 Пропущенные значения: Excel автоматически игнорирует пустые ячейки, а при ручном расчёте их можно случайно учесть.
🧮 Округление: Excel хранит до 15 знаков после запятой, а вручную вы могли округлить промежуточные результаты.

Как проверить?

Посчитайте среднее значение (СРЗНАЧ).
Для каждого значения найдите отклонение от среднего: =A2-$B$1 (где B1 — среднее).
Возведите отклонения в квадрат: =СТЕПЕНЬ(A2-$B$1; 2).
Суммируйте квадраты отклонений: =СУММ(диапазон_квадратов).
Разделите сумму на n-1 и сравните с ДИСП.В.

Типичные ошибки и как их избежать

Даже опытные пользователи Excel иногда допускают ошибки при расчёте дисперсии. Вот самые распространённые из них:

Ошибка 1: Использование ДИСП.Г вместо ДИСП.В

⚠️ Внимание: Если у вас выборка (а не вся генеральная совокупность), функция ДИСП.Г занизит реальную дисперсию. Например, для 10 значений разница между ДИСП.В и ДИСП.Г составит ~10%.

Ошибка 2: Наличие текстовых значений

📛 Если в диапазоне есть ячейка с текстом (например, "Н/Д"), Excel проигнорирует её, но количество наблюдений (n) уменьшится. Это исказит результат.
🔍 Решение: Используйте =ЕЧИСЛО() для проверки данных или функцию =ЕОШИБКА().

Ошибка 3: Неучёт выбросов

🎯 Один аномально большой или маленький показатель (выброс) может сильно увеличить дисперсию. Например, если в нашей выборке роста добавить значение "200 см", дисперсия вырастет с 30,25 до 120,75!
🛠 Решение: Используйте =КВАРТИЛЬ() для поиска выбросов или удалите их вручную.

Ошибка 4: Неправильный диапазон

📏 Если в формуле указать A1:A11 вместо A2:A11, и в A1 будет заголовок, Excel проигнорирует его, но это может запутать при дальнейшем анализе.
🔄 Решение: Всегда используйте именованные диапазоны или проверяйте границы вручную.

Как найти выбросы автоматически?

Используйте правило "трёх сигм":

1. Рассчитайте среднее (СРЗНАЧ) и стандартное отклонение (КВАДРОТКЛ.В).

2. Найдите границы: =СРЗНАЧ - 3*КВАДРОТКЛ.В и =СРЗНАЧ + 3*КВАДРОТКЛ.В.

3. Все значения за этими границами — потенциальные выбросы.

Продвинутые приёмы: дисперсия по группам и динамические массивы

Если вам нужно рассчитать дисперсию для нескольких групп данных (например, рост студентов по факультетам), можно использовать функции массива или сводные таблицы.

Метод 1: Функция ДИСП.В с условием

Предположим, у вас в столбце A — рост, а в столбце B — факультет. Чтобы найти дисперсию роста для факультета "Экономика":

=ДИСП.В(ЕСЛИ(B2:B100="Экономика"; A2:A100))

Внимание: Это формула массива — в новых версиях Excel (365, 2021) она работает автоматически, а в старых (2019 и ранее) её нужно вводить с Ctrl+Shift+Enter.

Метод 2: Сводная таблица

Выделите данные (включая заголовки).
Перейдите в Вставка → Сводная таблица.
В поле "Строки" добавьте "Факультет".
В поле "Значения" добавьте "Рост", но выберите Параметры полей значений → Дополнительные вычисления → Дисперсия.

Метод 3: Power Query (для больших данных)

📊 Перейдите в Данные → Получить данные → Из таблицы/диапазона.
🔄 В редакторе Power Query выберите столбец с данными → Статистика → Дисперсия.
📤 Группируйте по категориям с помощью Группировка → Группировать по.

Визуализация дисперсии: гистограммы и графики

Числовое значение дисперсии не всегда интуитивно понятно. Чтобы лучше понять разброс данных, построим гистограмму и ящик с усами (box plot).

Гистограмма:

Выделите данные (например, A2:A11).
Перейдите в Вставка → Гистограмма.
Настройте количество корзин (интервалов) в Формат оси → Параметры оси.

Ящик с усами (box plot):

В Excel нет встроенной опции для box plot, но его можно создать вручную:

Рассчитайте квартили:

=КВАРТИЛЬ.ВКЛ(A2:A11; 0)  // Минимум
=КВАРТИЛЬ.ВКЛ(A2:A11; 1)  // 25-й перцентиль
=КВАРТИЛЬ.ВКЛ(A2:A11; 2)  // Медиана
=КВАРТИЛЬ.ВКЛ(A2:A11; 3)  // 75-й перцентиль
=КВАРТИЛЬ.ВКЛ(A2:A11; 4)  // Максимум

Постройте график "с областями" на основе этих значений.

Интерпретация:

📊 Чем шире "ящик" на графике, тем больше межквартильный размах (IQR) — это показывает разброс центральных 50% данных.
🔍 "Усы" (линии от ящика) показывают размах данных без выбросов. Если они длинные — дисперсия высокая.

FAQ: Ответы на частые вопросы

❓ Почему моя дисперсия отрицательная?

Дисперсия не может быть отрицательной по определению (так как это сумма квадратов). Если вы получили отрицательное значение, скорее всего:

🔄 Вы использовали формулу не для дисперсии, а для ковариации (например, КОВАРИАЦИЯ.В).
📉 В данных есть ошибки (текстовые значения, формулы с ошибками).

Проверьте формулу и исходные данные.

❓ Можно ли рассчитать дисперсию для нечисловых данных?

Нет, дисперсия рассчитывается только для количественных данных. Если у вас категориальные данные (например, "Да/Нет"), используйте другие меры вариативности, например:

📊 Индекс разнообразия Симпсона;
🔢 Энтропия Шенона (для оценки неопределённости).

❓ Как посчитать дисперсию для всей генеральной совокупности?

Если у вас все данные совокупности (а не выборка), используйте функцию ДИСП.Г (VAR.P). Она делит сумму квадратов отклонений на n, а не на n-1:

=ДИСП.Г(A2:A100)

Это даст смещённую оценку, но она будет точной для полной совокупности.

❓ Можно ли рассчитать дисперсию по фильтру?

Да! Например, чтобы найти дисперсию только для видимых ячеек после фильтрации:

Примените фильтр к данным.
Используйте функцию ПРОМЕЖУТОЧНЫЕ.ИТОГИ с кодом 10 (дисперсия):

=ПРОМЕЖУТОЧНЫЕ.ИТОГИ(10; A2:A100)

Она автоматически проигнорирует скрытые строки.

❓ Как связаны дисперсия и стандартное отклонение?

Стандартное отклонение (КВАДРОТКЛ.В) — это квадратный корень из дисперсии. Оно показывает разброс в тех же единицах, что и исходные данные (например, если дисперсия в см², то стандартное отклонение — в см). Формула:

=КОРЕНЬ(ДИСП.В(A2:A100))

или проще:

=КВАДРОТКЛ.В(A2:A100)