Выборочная дисперсия — это статистический показатель, который помогает оценить, насколько сильно значения в вашей выборке отклоняются от среднего. В отличие от генеральной дисперсии (которая рассчитывается для всей совокупности данных), выборочная дисперсия используется, когда у вас есть только часть наблюдений — например, данные опроса 100 человек из миллионного города. В Microsoft Excel этот расчёт можно выполнить несколькими способами, но многие пользователи путают функции или неправильно интерпретируют результаты.
Почему это важно? Представьте, что вы анализируете продажи магазина за месяц. Средний чек — 1500 рублей, но если дисперсия высокая, это значит, что были как покупки на 500 рублей, так и на 5000. Без учёта вариативности вы можете сделать ошибочные выводы о стабильности бизнеса. В этой статье мы разберём все нюансы расчёта выборочной дисперсии в Excel, от базовых функций до обработки больших массивов данных с учётом типичных ошибок.
Вы также узнаете, как отличать несмещённую и смещённую оценки дисперсии, когда использовать каждую из них, и как визуализировать результаты с помощью гистограмм. А в конце статьи вас ждёт FAQ с ответами на самые частые вопросы — например, почему ваш результат не совпадает с ручным расчётом или как обработать данные с пропусками.
Что такое выборочная дисперсия и зачем она нужна
Выборочная дисперсия (sample variance) — это мера разброса данных в выборке относительно их среднего значения. Она показывает, насколько сильно значения отклоняются от средней величины. Формула расчёта выглядит так:
Формула несмещённой выборочной дисперсии:
s² = Σ(xᵢ - x̄)² / (n - 1)
где:
- 📊
xᵢ— отдельное значение в выборке; - 📍
x̄— среднее арифметическое выборки; - 🔢
n— количество наблюдений; - 🔄
(n - 1)— поправка Бесселя (используется для несмещённой оценки).
Почему именно (n - 1), а не n? Дело в том, что при работе с выборкой (а не со всей генеральной совокупностью) мы теряем одну степень свободы. Если разделить на n, то получим смещённую оценку — она будет занижать реальную дисперсию. В Excel для несмещённой дисперсии используется функция ДИСП.В (или VAR.S в английской версии), а для смещённой — ДИСП.Г (VAR.P).
Где это применимо на практике?
- 📈 Финансовый анализ: оценка волатильности цен акций или доходности портфеля;
- 🏥 Медицина: анализ вариативности показателей здоровья пациентов;
- 🛒 Маркетинг: изучение разброса покупательской активности;
- 🎓 Наука: проверка гипотез в исследованиях.
Функции Excel для расчёта выборочной дисперсии
В Excel есть несколько функций для расчёта дисперсии, но не все они подходят для выборочных данных. Давайте разберёмся, какую функцию и когда использовать.
Основные функции:
| Функция | Описание | Когда использовать | Английский аналог |
|---|---|---|---|
ДИСП.В |
Несмещённая выборочная дисперсия (делит на n-1) |
Когда у вас выборка, а не вся генеральная совокупность | VAR.S |
ДИСП.Г |
Смещённая дисперсия (делит на n) |
Когда у вас все данные совокупности (редко) | VAR.P |
ДИСПР |
Устаревшая функция (аналог ДИСП.Г) |
Не рекомендуется к использованию | VARP |
КВАДРОТКЛ.В |
Стандартное отклонение (квадратный корень из дисперсии) | Когда нужен разброс в тех же единицах, что и данные | STDEV.S |
Пример использования ДИСП.В:
=ДИСП.В(A2:A100)
где A2:A100 — диапазон с вашими данными.
Если вам нужно рассчитать дисперсию для нескольких столбцов одновременно, используйте формулу массива:
=СРЗНАЧ(ДИСП.В(A2:A100); ДИСП.В(B2:B100))
Почему в старых версиях Excel нет функции ДИСП.В?
В Excel 2007 и ранее вместо ДИСП.В использовалась функция ДИСП (аналог VAR в английской версии), которая также рассчитывала несмещённую дисперсию. В новых версиях (начиная с 2010) её заменили на ДИСП.В для большей ясности.
Пошаговая инструкция: как посчитать выборочную дисперсию
Давайте разберём процесс на конкретном примере. Предположим, у нас есть данные о росте 10 случайно выбранных студентов (в см):
Исходные данные:
| № | Рост (см) |
|---|---|
| 1 | 172 |
| 2 | 168 |
| 3 | 180 |
| 4 | 175 |
| 5 | 165 |
| 6 | 178 |
| 7 | 170 |
| 8 | 182 |
| 9 | 169 |
| 10 | 176 |
Шаг 1. Введите данные
- 📝 Введите значения роста в столбец
A2:A11(например, как в таблице выше).
Шаг 2. Рассчитайте среднее значение
- 🧮 В ячейке
B1введите формулу:=СРЗНАЧ(A2:A11)
Шаг 3. Используйте функцию ДИСП.В
- 📊 В ячейке
B2введите:=ДИСП.В(A2:A11)
Шаг 4. Проверьте результат
- 🔍 В нашем примере дисперсия составит ≈ 30,25 (см²). Это означает, что разброс роста в выборке достаточно небольшой.
Убедитесь, что в диапазоне нет пустых ячеек|Сравните результат с ручным расчётом (см. следующий раздел)|Проверьте, что используется ДИСП.В, а не ДИСП.Г|Удалите выбросы (например, рост 200 см), если они искажают результат-->
Если вы хотите увидеть стандартное отклонение (в тех же единицах, что и исходные данные), используйте:
=КВАДРОТКЛ.В(A2:A11)
В нашем случае это будет ≈ 5,5 см.
Ручной расчёт vs. Excel: почему результаты могут отличаться
Иногда пользователи сталкиваются с тем, что дисперсия, посчитанная вручную, не совпадает с результатом Excel. Давайте разберёмся, где может крыться ошибка.
Частые причины расхождений:
- 🔄 Деление на n vs. n-1: Если вы вручную делите на
n(количество наблюдений), а Excel используетn-1(дляДИСП.В), результаты будут разными. Например, для нашей выборки:Сумма квадратов отклонений = 272,5n = 10 → 272,5 / 10 = 27,25 (смещённая)
n-1 = 9 → 272,5 / 9 ≈ 30,25 (несмещённая)
- 📉 Пропущенные значения: Excel автоматически игнорирует пустые ячейки, а при ручном расчёте их можно случайно учесть.
- 🧮 Округление: Excel хранит до 15 знаков после запятой, а вручную вы могли округлить промежуточные результаты.
Как проверить?
- Посчитайте среднее значение (
СРЗНАЧ). - Для каждого значения найдите отклонение от среднего:
=A2-$B$1(гдеB1— среднее). - Возведите отклонения в квадрат:
=СТЕПЕНЬ(A2-$B$1; 2). - Суммируйте квадраты отклонений:
=СУММ(диапазон_квадратов). - Разделите сумму на
n-1и сравните сДИСП.В.
Типичные ошибки и как их избежать
Даже опытные пользователи Excel иногда допускают ошибки при расчёте дисперсии. Вот самые распространённые из них:
Ошибка 1: Использование ДИСП.Г вместо ДИСП.В
⚠️ Внимание: Если у вас выборка (а не вся генеральная совокупность), функцияДИСП.Гзанизит реальную дисперсию. Например, для 10 значений разница междуДИСП.ВиДИСП.Гсоставит ~10%.
Ошибка 2: Наличие текстовых значений
- 📛 Если в диапазоне есть ячейка с текстом (например, "Н/Д"), Excel проигнорирует её, но количество наблюдений (
n) уменьшится. Это исказит результат. - 🔍 Решение: Используйте
=ЕЧИСЛО()для проверки данных или функцию=ЕОШИБКА().
Ошибка 3: Неучёт выбросов
- 🎯 Один аномально большой или маленький показатель (выброс) может сильно увеличить дисперсию. Например, если в нашей выборке роста добавить значение "200 см", дисперсия вырастет с 30,25 до 120,75!
- 🛠 Решение: Используйте
=КВАРТИЛЬ()для поиска выбросов или удалите их вручную.
Ошибка 4: Неправильный диапазон
- 📏 Если в формуле указать
A1:A11вместоA2:A11, и вA1будет заголовок, Excel проигнорирует его, но это может запутать при дальнейшем анализе. - 🔄 Решение: Всегда используйте именованные диапазоны или проверяйте границы вручную.
Как найти выбросы автоматически?
Используйте правило "трёх сигм":
1. Рассчитайте среднее (СРЗНАЧ) и стандартное отклонение (КВАДРОТКЛ.В).
2. Найдите границы: =СРЗНАЧ - 3*КВАДРОТКЛ.В и =СРЗНАЧ + 3*КВАДРОТКЛ.В.
3. Все значения за этими границами — потенциальные выбросы.
Продвинутые приёмы: дисперсия по группам и динамические массивы
Если вам нужно рассчитать дисперсию для нескольких групп данных (например, рост студентов по факультетам), можно использовать функции массива или сводные таблицы.
Метод 1: Функция ДИСП.В с условием
Предположим, у вас в столбце A — рост, а в столбце B — факультет. Чтобы найти дисперсию роста для факультета "Экономика":
=ДИСП.В(ЕСЛИ(B2:B100="Экономика"; A2:A100))
Внимание: Это формула массива — в новых версиях Excel (365, 2021) она работает автоматически, а в старых (2019 и ранее) её нужно вводить с Ctrl+Shift+Enter.
Метод 2: Сводная таблица
- Выделите данные (включая заголовки).
- Перейдите в
Вставка → Сводная таблица. - В поле "Строки" добавьте "Факультет".
- В поле "Значения" добавьте "Рост", но выберите
Параметры полей значений → Дополнительные вычисления → Дисперсия.
Метод 3: Power Query (для больших данных)
- 📊 Перейдите в
Данные → Получить данные → Из таблицы/диапазона. - 🔄 В редакторе Power Query выберите столбец с данными →
Статистика → Дисперсия. - 📤 Группируйте по категориям с помощью
Группировка → Группировать по.
Визуализация дисперсии: гистограммы и графики
Числовое значение дисперсии не всегда интуитивно понятно. Чтобы лучше понять разброс данных, построим гистограмму и ящик с усами (box plot).
Гистограмма:
- Выделите данные (например,
A2:A11). - Перейдите в
Вставка → Гистограмма. - Настройте количество корзин (интервалов) в
Формат оси → Параметры оси.
Ящик с усами (box plot):
В Excel нет встроенной опции для box plot, но его можно создать вручную:
- Рассчитайте квартили:
=КВАРТИЛЬ.ВКЛ(A2:A11; 0) // Минимум=КВАРТИЛЬ.ВКЛ(A2:A11; 1) // 25-й перцентиль
=КВАРТИЛЬ.ВКЛ(A2:A11; 2) // Медиана
=КВАРТИЛЬ.ВКЛ(A2:A11; 3) // 75-й перцентиль
=КВАРТИЛЬ.ВКЛ(A2:A11; 4) // Максимум
- Постройте график "с областями" на основе этих значений.
Интерпретация:
- 📊 Чем шире "ящик" на графике, тем больше межквартильный размах (IQR) — это показывает разброс центральных 50% данных.
- 🔍 "Усы" (линии от ящика) показывают размах данных без выбросов. Если они длинные — дисперсия высокая.
FAQ: Ответы на частые вопросы
❓ Почему моя дисперсия отрицательная?
Дисперсия не может быть отрицательной по определению (так как это сумма квадратов). Если вы получили отрицательное значение, скорее всего:
- 🔄 Вы использовали формулу не для дисперсии, а для ковариации (например,
КОВАРИАЦИЯ.В). - 📉 В данных есть ошибки (текстовые значения, формулы с ошибками).
Проверьте формулу и исходные данные.
❓ Можно ли рассчитать дисперсию для нечисловых данных?
Нет, дисперсия рассчитывается только для количественных данных. Если у вас категориальные данные (например, "Да/Нет"), используйте другие меры вариативности, например:
- 📊 Индекс разнообразия Симпсона;
- 🔢 Энтропия Шенона (для оценки неопределённости).
❓ Как посчитать дисперсию для всей генеральной совокупности?
Если у вас все данные совокупности (а не выборка), используйте функцию ДИСП.Г (VAR.P). Она делит сумму квадратов отклонений на n, а не на n-1:
=ДИСП.Г(A2:A100)
Это даст смещённую оценку, но она будет точной для полной совокупности.
❓ Можно ли рассчитать дисперсию по фильтру?
Да! Например, чтобы найти дисперсию только для видимых ячеек после фильтрации:
- Примените фильтр к данным.
- Используйте функцию
ПРОМЕЖУТОЧНЫЕ.ИТОГИс кодом10(дисперсия):
=ПРОМЕЖУТОЧНЫЕ.ИТОГИ(10; A2:A100)
Она автоматически проигнорирует скрытые строки.
❓ Как связаны дисперсия и стандартное отклонение?
Стандартное отклонение (КВАДРОТКЛ.В) — это квадратный корень из дисперсии. Оно показывает разброс в тех же единицах, что и исходные данные (например, если дисперсия в см², то стандартное отклонение — в см). Формула:
=КОРЕНЬ(ДИСП.В(A2:A100))
или проще:
=КВАДРОТКЛ.В(A2:A100)