Как посчитать дисперсию выборки в Excel: подробная инструкция с формулами

Дисперсия — один из ключевых показателей статистики, который помогает оценить разброс данных вокруг среднего значения. В Microsoft Excel расчёт дисперсии выборки можно выполнить несколькими способами: с помощью встроенных функций, ручного ввода формул или через инструмент Анализ данных. Но как не запутаться в обилии функций (ДИСП, ДИСП.В, ДИСП.Г) и выбрать правильную? И почему результаты иногда отличаются от ожидаемых?

Эта статья поможет разобраться в нюансах: от базовых понятий до практических примеров с визуализацией. Мы рассмотрим, когда использовать выборочную дисперсию (с поправкой Бесселя), а когда — генеральную, как избежать типичных ошибок при работе с данными и даже автоматизировать расчёты для больших массивов. Если вы аналитик, студент или просто работаете с данными, эта инструкция сэкономит вам часы на поиск информации по форумам.

В конце статьи вы найдёте FAQ с ответами на частые вопросы, а также спойлеры с лайфхаками для ускорения расчётов. Начнём с основ!

Что такое дисперсия и зачем её считать в Excel

Дисперсия (variance) показывает, насколько значения в наборе данных отклоняются от среднего арифметического. Чем больше дисперсия, тем сильнее разброс данных. В статистике различают два типа дисперсии:

  • 📊 Генеральная дисперсия (σ²) — рассчитывается для всей совокупности данных (например, все продажи компании за год). В Excel для неё используют функцию ДИСП.Г.
  • 📈 Выборочная дисперсия (s²) — оценивает разброс по части данных (выборке). Здесь применяют ДИСП.В с поправкой Бесселя (деление на n-1 вместо n).

Почему это важно? Представьте, что вы анализируете доходы клиентов банка. Если дисперсия высокая, значит, среди клиентов есть как очень богатые, так и с низкими доходами — это повлияет на стратегию кредитования. В Excel ошибка в выборе функции может привести к заниженным или завышенным оценкам рисков.

Пример из жизни: Маркетолог сравнивает конверсию двух рекламных кампаний. Если дисперсия конверсии в первой кампании в 2 раза выше, чем во второй, это сигнал о нестабильности результатов — возможно, стоит пересмотреть таргетинг.

📊 Для чего вам нужна дисперсия в Excel?
Для учебных задач
Для бизнес-анализа
Для научных исследований
Другое

Функции Excel для расчёта дисперсии: разбираемся в различиях

В Excel есть четыре основные функции для дисперсии, и их часто путают. Давайте разберём каждую:

ФункцияОписаниеФормулаПример
ДИСП.ГГенеральная дисперсия (вся совокупность)σ² = Σ(xi – μ)² / N=ДИСП.Г(A1:A10)
ДИСП.ВВыборочная дисперсия (с поправкой Бесселя)s² = Σ(xi – x̄)² / (n-1)=ДИСП.В(B1:B20)
ДИСПУстаревшая функция (аналог ДИСП.В для совместимости)=ДИСП(C1:C15)
ДИСПРАнглийская версия ДИСП.Г (в некоторых локализациях)=ДИСПР(D1:D10)

⚠️ Внимание: Функция ДИСП оставлена для совместимости со старыми версиями Excel (до 2010 года). В новых файлах лучше использовать ДИСП.В, чтобы избежать путаницы.

Как выбрать правильную функцию?

  • 🔍 Если у вас все данные популяции (например, зарплаты всех сотрудников компании) → ДИСП.Г.
  • 📊 Если у вас выборка (опрос 100 клиентов из 10 000) → ДИСП.В.
  • 🚫 Никогда не используйте ДИСП в новых проектах — она может исчезнуть в будущих версиях Excel.

Пошаговая инструкция: как посчитать дисперсию выборки

Рассмотрим практический пример. Допустим, у нас есть данные о росте 10 студентов (в см): 172, 168, 180, 175, 165, 178, 182, 170, 169, 176. Мы хотим оценить разброс роста в этой выборке.

Шаг 1. Введите данные в столбец A1:A10.

Шаг 2. Используйте функцию для выборочной дисперсии:

=ДИСП.В(A1:A10)

Шаг 3. Нажмите Enter. Excel вернёт значение ≈ 30,76 (это и есть выборочная дисперсия).

Чтобы понять, как Excel считает это значение, разберём формулу вручную:

  1. Найдите среднее арифметическое: =СРЗНАЧ(A1:A10) → 173.5 см.
  2. Вычислите квадраты отклонений каждого значения от среднего (например, для 172: (172–173.5)² = 2.25).
  3. Суммируйте все квадраты отклонений → 276.25.
  4. Разделите на n–1 (где n=10) → 276.25 / 9 ≈ 30.76.

Данные введены без пустых ячеек|Использована правильная функция (ДИСП.В для выборки)|Среднее значение посчитано верно|Количество данных учтено в знаменателе (n–1)-->

⚠️ Внимание: Если в ваших данных есть пустые ячейки или текст, Excel проигнорирует их при расчёте. Но если ячейка содержит 0, она будет учтена! Это может исказить результат, если ноль — не реальное значение, а пропуск.

Расчёт дисперсии с помощью инструмента "Анализ данных"

Для крупных наборов данных удобнее использовать надстройку "Анализ данных" (доступна в Excel 2010 и новее). Она позволяет получить не только дисперсию, но и другие статистики за один клик.

Как включить "Анализ данных":

  1. Перейдите в Файл → Параметры → Надстройки.
  2. Внизу окна выберите Управление: Надстройки Excel → нажмите Перейти.
  3. Отметьте галочкой Пакет анализаOK.

Как использовать:

  1. Введите данные в столбец (например, A1:A50).
  2. Перейдите в Данные → Анализ данных → Описательная статистика.
  3. Укажите входной интервал (A1:A50), отметьте Итоговая статистика и Уровень надёжности 95%.
  4. Нажмите OK — Excel сгенерирует таблицу со средним, дисперсией, стандартным отклонением и другими метриками.

🔹 Преимущество метода: Автоматический расчёт доверительных интервалов и других статистик, которые пригодятся для глубокого анализа.

Что делать, если нет надстройки "Анализ данных"?

Если в вашей версии Excel нет этой надстройки (например, в Excel Online), используйте альтернативу:

  1. Скачайте бесплатную надстройку "Анализ данных" от Microsoft.
  2. Или рассчитайте дисперсию вручную через формулы (см. предыдущий раздел).
  3. Для Mac: надстройка доступна в Excel 2016 и новее, но может потребоваться переустановка Office.

Типичные ошибки при расчёте дисперсии и как их избежать

Даже опытные пользователи Excel иногда допускают ошибки. Вот самые распространённые:

  • 🔢 Путают ДИСП.Г и ДИСП.В → это приводит к заниженным или завышенным оценкам разброса. Помните: для выборки всегда ДИСП.В!
  • 📉 Игнорируют пустые ячейки → Excel их пропускает, но если ячейка содержит 0 (например, отсутствие продаж), это исказит результат. Очищайте данные или заменяйте нули на #Н/Д.
  • 🔄 Копируют формулы с абсолютными ссылками → если вы протягиваете формулу =ДИСП.В($A$1:$A$10) на другие столбцы, диапазон не изменится. Используйте относительные ссылки (A1:A10) или именованные диапазоны.
  • 📊 Не проверяют данные на выбросы → одно аномально большое или маленькое значение может сильно увеличить дисперсию. Используйте =КВАРТИЛЬ для поиска выбросов.

⚠️ Внимание: Если ваша дисперсия получилась отрицательной — это 100% ошибка в данных или формулах. Дисперсия всегда неотрицательна! Проверьте:

  • Нет ли текста в числовых ячейках (например, "Н/Д" вместо числа).
  • Не используете ли вы ДИСП.Г для выборки с одним значением (деление на n=1 даст 0).

Пример исправления:

Допустим, у вас в диапазоне A1:A5 значения 10, 20, 30, "Н/Д", 50. Формула =ДИСП.В(A1:A5) вернёт ошибку. Решение:

=ДИСП.В(ЕСЛИОШИБКА(A1:A5;""))

Но лучше очистить данные заранее.

Продвинутые приёмы: дисперсия по условию и динамические массивы

Иногда нужно посчитать дисперсию не для всех данных, а только для тех, что удовлетворяют условию. Например, дисперсию зарплат только для мужчин или только для продаж выше 1000 руб.

Способ 1. Функция ФИЛЬТР + ДИСП.В (Excel 365 и 2021):

=ДИСП.В(ФИЛЬТР(A1:A10; B1:B10="Да"))

Где A1:A10 — данные, B1:B10 — столбец с условием (например, "Да"/"Нет").

Способ 2. Массивная формула (для старых версий Excel):

=ДИСП.В(ЕСЛИ(B1:B10="Да"; A1:A10))

Введите её как массивную (нажмите Ctrl+Shift+Enter в Excel 2019 и старше).

Способ 3. Сводная таблица:

  1. Создайте сводную таблицу с вашими данными.
  2. Перетащите поле с условием (например, "Пол") в область Строки.
  3. Добавьте поле с данными (например, "Зарплата") в область Значения.
  4. Нажмите на стрелку рядом с "Сумма по полю" → Параметры полей значений → Дополнительные вычисления → Дисперсия.

🔹 Лайфхак: Если вам нужна дисперсия по нескольким условиям (например, зарплаты мужчин старше 30 лет), комбинируйте ФИЛЬТР с несколькими критериями:

=ДИСП.В(ФИЛЬТР(A1:A10; (B1:B10="М")*(C1:C10>30)))

Визуализация дисперсии: как построить график разброса

Числовое значение дисперсии не всегда наглядно. Чтобы лучше понять разброс данных, постройте гистограмму или ящик с усами (box plot).

Инструкция для гистограммы:

  1. Выделите данные (например, A1:A50).
  2. Перейдите на вкладку Вставка → Вставить гистограмму.
  3. Настройте количество корзин (интервалов) в Формат оси → Параметры оси → Количество корзин.

Инструкция для ящика с усами (Excel 2016 и новее):

  1. Выделите данные.
  2. Перейдите в Вставка → Вставить диаграмму → Ящик с усами.
  3. На диаграмме будут видны медиана, квартили и выбросы — это поможет оценить асимметрию распределения.

📌 Совет: Чтобы сравнить дисперсию двух выборок (например, доходы мужчин и женщин), постройте гистограммы на одной оси. Визуально будет видно, какая группа имеет больший разброс.

⚠️ Внимание: Если ваши данные имеют сильную асимметрию (например, доходы, где большинство значений — около среднего, но есть несколько очень больших), дисперсия может быть не лучшей мерой разброса. В таких случаях используйте межквартильный размах (=КВАРТИЛЬ.ЭКСЦ(A1:A10;3) – КВАРТИЛЬ.ЭКСЦ(A1:A10;1)).

FAQ: Ответы на частые вопросы о дисперсии в Excel

Почему моя дисперсия отличается от той, что посчитал статистический калькулятор?

Скорее всего, вы используете разные формулы:

  • Excel по умолчанию считает выборочную дисперсию (ДИСП.В) с делением на n–1.
  • Некоторые калькуляторы могут использовать деление на n (генеральная дисперсия).
  • Проверьте, не включены ли в данные пустые ячейки или текст.

Решение: уточните, какую дисперсию требуется посчитать (выборочную или генеральную), и выберите соответствующую функцию.

Можно ли посчитать дисперсию для нечисловых данных?

Нет, дисперсия рассчитывается только для числовых значений. Если у вас категориальные данные (например, "Да"/"Нет"), используйте другие меры вариативности, например:

  • Индекс разнообразия Симпсона (для номинальных данных).
  • Энтропия (в теории информации).

В Excel для категориальных данных можно построить таблицу частот и анализировать распределение визуально.

Как посчитать дисперсию по группам (например, по отделам компании)?

Есть несколько способов:

  1. Сводная таблица (см. раздел "Продвинутые приёмы").
  2. Функция АГРЕГАТ (для Excel 2010+):
    =АГРЕГАТ(11; 6; A1:A100 / (B1:B100="Отдел1"))

    где 11 — код функции ДИСП.В, 6 — игнорировать скрытые строки.

  3. Power Query (для больших данных): загрузите данные в редактор, сгруппируйте по столбцу с группами и добавьте столбец с дисперсией.
Что делать, если дисперсия равна нулю?

Дисперсия равна нулю только в одном случае: все значения в выборке одинаковые. Например, если у вас данные 5, 5, 5, 5, отклонений от среднего нет, значит, и разброс отсутствует.

Проверьте:

  • Нет ли ошибок в данных (например, скопированные формулы вместо значений).
  • Не применена ли к данным округление (например, через =ОКРУГЛ()).
Как перевести дисперсию в стандартное отклонение?

Стандартное отклонение — это квадратный корень из дисперсии. В Excel:

  • Для выборочного стандартного отклонения: =СТАНДОТКЛОН.В(A1:A10).
  • Для генерального: =СТАНДОТКЛОН.Г(A1:A10).
  • Или возьмите корень из дисперсии: =КОРЕНЬ(ДИСП.В(A1:A10)).

Стандартное отклонение измеряется в тех же единицах, что и исходные данные (например, если дисперсия в "см²", то стандартное отклонение — в "см").