Дисперсия — один из ключевых показателей статистики, который помогает оценить разброс данных вокруг среднего значения. В Microsoft Excel расчёт дисперсии выборки можно выполнить несколькими способами: с помощью встроенных функций, ручного ввода формул или через инструмент Анализ данных. Но как не запутаться в обилии функций (ДИСП, ДИСП.В, ДИСП.Г) и выбрать правильную? И почему результаты иногда отличаются от ожидаемых?
Эта статья поможет разобраться в нюансах: от базовых понятий до практических примеров с визуализацией. Мы рассмотрим, когда использовать выборочную дисперсию (с поправкой Бесселя), а когда — генеральную, как избежать типичных ошибок при работе с данными и даже автоматизировать расчёты для больших массивов. Если вы аналитик, студент или просто работаете с данными, эта инструкция сэкономит вам часы на поиск информации по форумам.
В конце статьи вы найдёте FAQ с ответами на частые вопросы, а также спойлеры с лайфхаками для ускорения расчётов. Начнём с основ!
Что такое дисперсия и зачем её считать в Excel
Дисперсия (variance) показывает, насколько значения в наборе данных отклоняются от среднего арифметического. Чем больше дисперсия, тем сильнее разброс данных. В статистике различают два типа дисперсии:
- 📊 Генеральная дисперсия (σ²) — рассчитывается для всей совокупности данных (например, все продажи компании за год). В Excel для неё используют функцию
ДИСП.Г. - 📈 Выборочная дисперсия (s²) — оценивает разброс по части данных (выборке). Здесь применяют
ДИСП.Вс поправкой Бесселя (деление наn-1вместоn).
Почему это важно? Представьте, что вы анализируете доходы клиентов банка. Если дисперсия высокая, значит, среди клиентов есть как очень богатые, так и с низкими доходами — это повлияет на стратегию кредитования. В Excel ошибка в выборе функции может привести к заниженным или завышенным оценкам рисков.
Пример из жизни: Маркетолог сравнивает конверсию двух рекламных кампаний. Если дисперсия конверсии в первой кампании в 2 раза выше, чем во второй, это сигнал о нестабильности результатов — возможно, стоит пересмотреть таргетинг.
Функции Excel для расчёта дисперсии: разбираемся в различиях
В Excel есть четыре основные функции для дисперсии, и их часто путают. Давайте разберём каждую:
| Функция | Описание | Формула | Пример |
|---|---|---|---|
ДИСП.Г | Генеральная дисперсия (вся совокупность) | σ² = Σ(xi – μ)² / N | =ДИСП.Г(A1:A10) |
ДИСП.В | Выборочная дисперсия (с поправкой Бесселя) | s² = Σ(xi – x̄)² / (n-1) | =ДИСП.В(B1:B20) |
ДИСП | Устаревшая функция (аналог ДИСП.В для совместимости) | — | =ДИСП(C1:C15) |
ДИСПР | Английская версия ДИСП.Г (в некоторых локализациях) | — | =ДИСПР(D1:D10) |
⚠️ Внимание: Функция ДИСП оставлена для совместимости со старыми версиями Excel (до 2010 года). В новых файлах лучше использовать ДИСП.В, чтобы избежать путаницы.
Как выбрать правильную функцию?
- 🔍 Если у вас все данные популяции (например, зарплаты всех сотрудников компании) →
ДИСП.Г. - 📊 Если у вас выборка (опрос 100 клиентов из 10 000) →
ДИСП.В. - 🚫 Никогда не используйте
ДИСПв новых проектах — она может исчезнуть в будущих версиях Excel.
Пошаговая инструкция: как посчитать дисперсию выборки
Рассмотрим практический пример. Допустим, у нас есть данные о росте 10 студентов (в см): 172, 168, 180, 175, 165, 178, 182, 170, 169, 176. Мы хотим оценить разброс роста в этой выборке.
Шаг 1. Введите данные в столбец A1:A10.
Шаг 2. Используйте функцию для выборочной дисперсии:
=ДИСП.В(A1:A10)
Шаг 3. Нажмите Enter. Excel вернёт значение ≈ 30,76 (это и есть выборочная дисперсия).
Чтобы понять, как Excel считает это значение, разберём формулу вручную:
- Найдите среднее арифметическое:
=СРЗНАЧ(A1:A10)→ 173.5 см. - Вычислите квадраты отклонений каждого значения от среднего (например, для 172:
(172–173.5)² = 2.25). - Суммируйте все квадраты отклонений → 276.25.
- Разделите на
n–1(гдеn=10) → 276.25 / 9 ≈ 30.76.
Данные введены без пустых ячеек|Использована правильная функция (ДИСП.В для выборки)|Среднее значение посчитано верно|Количество данных учтено в знаменателе (n–1)-->
⚠️ Внимание: Если в ваших данных есть пустые ячейки или текст, Excel проигнорирует их при расчёте. Но если ячейка содержит 0, она будет учтена! Это может исказить результат, если ноль — не реальное значение, а пропуск.
Расчёт дисперсии с помощью инструмента "Анализ данных"
Для крупных наборов данных удобнее использовать надстройку "Анализ данных" (доступна в Excel 2010 и новее). Она позволяет получить не только дисперсию, но и другие статистики за один клик.
Как включить "Анализ данных":
- Перейдите в
Файл → Параметры → Надстройки. - Внизу окна выберите
Управление: Надстройки Excel→ нажмитеПерейти. - Отметьте галочкой
Пакет анализа→OK.
Как использовать:
- Введите данные в столбец (например,
A1:A50). - Перейдите в
Данные → Анализ данных → Описательная статистика. - Укажите входной интервал (
A1:A50), отметьтеИтоговая статистикаиУровень надёжности 95%. - Нажмите
OK— Excel сгенерирует таблицу со средним, дисперсией, стандартным отклонением и другими метриками.
🔹 Преимущество метода: Автоматический расчёт доверительных интервалов и других статистик, которые пригодятся для глубокого анализа.
Если в вашей версии Excel нет этой надстройки (например, в Excel Online), используйте альтернативу:Что делать, если нет надстройки "Анализ данных"?
Типичные ошибки при расчёте дисперсии и как их избежать
Даже опытные пользователи Excel иногда допускают ошибки. Вот самые распространённые:
- 🔢 Путают
ДИСП.ГиДИСП.В→ это приводит к заниженным или завышенным оценкам разброса. Помните: для выборки всегдаДИСП.В! - 📉 Игнорируют пустые ячейки → Excel их пропускает, но если ячейка содержит
0(например, отсутствие продаж), это исказит результат. Очищайте данные или заменяйте нули на#Н/Д. - 🔄 Копируют формулы с абсолютными ссылками → если вы протягиваете формулу
=ДИСП.В($A$1:$A$10)на другие столбцы, диапазон не изменится. Используйте относительные ссылки (A1:A10) или именованные диапазоны. - 📊 Не проверяют данные на выбросы → одно аномально большое или маленькое значение может сильно увеличить дисперсию. Используйте
=КВАРТИЛЬдля поиска выбросов.
⚠️ Внимание: Если ваша дисперсия получилась отрицательной — это 100% ошибка в данных или формулах. Дисперсия всегда неотрицательна! Проверьте:
- Нет ли текста в числовых ячейках (например, "Н/Д" вместо числа).
- Не используете ли вы
ДИСП.Гдля выборки с одним значением (деление наn=1даст 0).
Пример исправления:
Допустим, у вас в диапазоне A1:A5 значения 10, 20, 30, "Н/Д", 50. Формула =ДИСП.В(A1:A5) вернёт ошибку. Решение:
=ДИСП.В(ЕСЛИОШИБКА(A1:A5;""))
Но лучше очистить данные заранее.
Продвинутые приёмы: дисперсия по условию и динамические массивы
Иногда нужно посчитать дисперсию не для всех данных, а только для тех, что удовлетворяют условию. Например, дисперсию зарплат только для мужчин или только для продаж выше 1000 руб.
Способ 1. Функция ФИЛЬТР + ДИСП.В (Excel 365 и 2021):
=ДИСП.В(ФИЛЬТР(A1:A10; B1:B10="Да"))
Где A1:A10 — данные, B1:B10 — столбец с условием (например, "Да"/"Нет").
Способ 2. Массивная формула (для старых версий Excel):
=ДИСП.В(ЕСЛИ(B1:B10="Да"; A1:A10))
Введите её как массивную (нажмите Ctrl+Shift+Enter в Excel 2019 и старше).
Способ 3. Сводная таблица:
- Создайте сводную таблицу с вашими данными.
- Перетащите поле с условием (например, "Пол") в область
Строки. - Добавьте поле с данными (например, "Зарплата") в область
Значения. - Нажмите на стрелку рядом с "Сумма по полю" →
Параметры полей значений → Дополнительные вычисления → Дисперсия.
🔹 Лайфхак: Если вам нужна дисперсия по нескольким условиям (например, зарплаты мужчин старше 30 лет), комбинируйте ФИЛЬТР с несколькими критериями:
=ДИСП.В(ФИЛЬТР(A1:A10; (B1:B10="М")*(C1:C10>30)))
Визуализация дисперсии: как построить график разброса
Числовое значение дисперсии не всегда наглядно. Чтобы лучше понять разброс данных, постройте гистограмму или ящик с усами (box plot).
Инструкция для гистограммы:
- Выделите данные (например,
A1:A50). - Перейдите на вкладку
Вставка → Вставить гистограмму. - Настройте количество корзин (интервалов) в
Формат оси → Параметры оси → Количество корзин.
Инструкция для ящика с усами (Excel 2016 и новее):
- Выделите данные.
- Перейдите в
Вставка → Вставить диаграмму → Ящик с усами. - На диаграмме будут видны медиана, квартили и выбросы — это поможет оценить асимметрию распределения.
📌 Совет: Чтобы сравнить дисперсию двух выборок (например, доходы мужчин и женщин), постройте гистограммы на одной оси. Визуально будет видно, какая группа имеет больший разброс.
⚠️ Внимание: Если ваши данные имеют сильную асимметрию (например, доходы, где большинство значений — около среднего, но есть несколько очень больших), дисперсия может быть не лучшей мерой разброса. В таких случаях используйте межквартильный размах (=КВАРТИЛЬ.ЭКСЦ(A1:A10;3) – КВАРТИЛЬ.ЭКСЦ(A1:A10;1)).
FAQ: Ответы на частые вопросы о дисперсии в Excel
Почему моя дисперсия отличается от той, что посчитал статистический калькулятор?
Скорее всего, вы используете разные формулы:
- Excel по умолчанию считает выборочную дисперсию (
ДИСП.В) с делением наn–1. - Некоторые калькуляторы могут использовать деление на
n(генеральная дисперсия). - Проверьте, не включены ли в данные пустые ячейки или текст.
Решение: уточните, какую дисперсию требуется посчитать (выборочную или генеральную), и выберите соответствующую функцию.
Можно ли посчитать дисперсию для нечисловых данных?
Нет, дисперсия рассчитывается только для числовых значений. Если у вас категориальные данные (например, "Да"/"Нет"), используйте другие меры вариативности, например:
- Индекс разнообразия Симпсона (для номинальных данных).
- Энтропия (в теории информации).
В Excel для категориальных данных можно построить таблицу частот и анализировать распределение визуально.
Как посчитать дисперсию по группам (например, по отделам компании)?
Есть несколько способов:
- Сводная таблица (см. раздел "Продвинутые приёмы").
- Функция
АГРЕГАТ(для Excel 2010+):=АГРЕГАТ(11; 6; A1:A100 / (B1:B100="Отдел1"))где
11— код функцииДИСП.В,6— игнорировать скрытые строки. - Power Query (для больших данных): загрузите данные в редактор, сгруппируйте по столбцу с группами и добавьте столбец с дисперсией.
Что делать, если дисперсия равна нулю?
Дисперсия равна нулю только в одном случае: все значения в выборке одинаковые. Например, если у вас данные 5, 5, 5, 5, отклонений от среднего нет, значит, и разброс отсутствует.
Проверьте:
- Нет ли ошибок в данных (например, скопированные формулы вместо значений).
- Не применена ли к данным округление (например, через
=ОКРУГЛ()).
Как перевести дисперсию в стандартное отклонение?
Стандартное отклонение — это квадратный корень из дисперсии. В Excel:
- Для выборочного стандартного отклонения:
=СТАНДОТКЛОН.В(A1:A10). - Для генерального:
=СТАНДОТКЛОН.Г(A1:A10). - Или возьмите корень из дисперсии:
=КОРЕНЬ(ДИСП.В(A1:A10)).
Стандартное отклонение измеряется в тех же единицах, что и исходные данные (например, если дисперсия в "см²", то стандартное отклонение — в "см").