Как правильно считать дисперсию в Excel: функции, примеры и лайфхаки

Дисперсия — один из ключевых показателей статистики, который помогает оценить разброс данных относительно среднего значения. В Microsoft Excel её расчёт автоматизирован с помощью специализированных функций, но многие пользователи путают их между собой или получают некорректные результаты. Почему так происходит? Дело в том, что в Excel есть четыре основные функции для дисперсии, и каждая из них предназначена для разных случаев: для выборки, генеральной совокупности, с учётом текста или логических значений.

Если вы когда-нибудь сталкивались с ситуацией, когда формула =ДИСП() выдавала результат, отличный от ожидаемого, или не понимали, почему в учебнике по статистике используется деление на n-1, а не на n — эта статья поможет разобраться. Мы не только покажем, как считать дисперсию в Excel, но и объясним, когда какую функцию применять, как избежать типичных ошибок и даже как визуализировать результаты.

Для начала разберёмся с терминологией. Дисперсия (variance) — это средний квадрат отклонений значений от их среднего арифметического. Она измеряет, насколько сильно данные "разбросаны" вокруг среднего. Например, если у вас есть данные о росте студентов в группе, дисперсия покажет, насколько сильно их рост варьируется. В Excel для её расчёта используются функции с приставками ДИСП (от слова "дисперсия"), но их отличие кроется в деталях — и именно эти детали часто становятся причиной ошибок.

Важно понимать, что дисперсия бывает выборочной (для части данных) и генеральной (для всей совокупности). В Excel это отражено в названиях функций: ДИСП.В и ДИСП.Г соответственно. А ещё есть устаревшие версии этих функций — ДИСП и ДИСПР, которые сохранены для совместимости с ранними версиями программы. Если вы работаете с современными версиями Excel (2010 и новее), лучше использовать функции с точкой в названии — они более точные и поддерживают большие массивы данных.

1. Какие функции для дисперсии есть в Excel?

В Excel существует четыре основные функции для расчёта дисперсии, и каждая из них имеет своё предназначение. Давайте разберём их подробно:

  • 📊 ДИСП.В — выборочная дисперсия (деление на n-1). Используется, когда ваши данные — это только часть общей совокупности (например, опрос 100 человек из города с населением 1 млн).
  • 📈 ДИСП.Г — генеральная дисперсия (деление на n). Применяется, если у вас есть все данные совокупности (например, анализ продаж за год по всем магазинам сети).
  • 🔄 ДИСП — устаревшая версия ДИСП.В (для совместимости с Excel 2007 и ранее). Не рекомендуется к использованию в новых файлах.
  • 🔒 ДИСПР — устаревшая версия ДИСП.Г. Аналогично, лучше избегать.

Почему так важно выбирать правильную функцию? Потому что результаты будут отличаться! Например, если у вас есть 10 значений, то ДИСП.В разделит сумму квадратов отклонений на 9 (n-1), а ДИСП.Г — на 10 (n). Разница может быть значительной, особенно при небольшом объёме данных.

Кроме того, в Excel есть функции ДИСПА и ДИСПРА, которые учитывают не только числа, но и текстовые значения, а также логические ИСТИНА/ЛОЖЬ. Их стоит использовать, если в вашем диапазоне есть пустые ячейки или нечисловые данные, которые нужно игнорировать.

📊 Какую функцию для дисперсии вы используете чаще?
ДИСП.В
ДИСП.Г
ДИСП (устаревшая)
Не знаю, в чём разница

2. Пошаговая инструкция: как посчитать дисперсию в Excel

Рассмотрим процесс на конкретном примере. Допустим, у нас есть данные о количестве продаж за 10 дней:

ДеньПродажи, шт.
112
215
314
418
510
620
716
813
917
1015

Нам нужно рассчитать дисперсию для этой выборки. Следуйте инструкции:

  1. Введите данные в столбец (например, B2:B11).
  2. Выделите ячейку, где будет результат (например, B12).
  3. Введите формулу:
    =ДИСП.В(B2:B11)

    или для генеральной совокупности:

    =ДИСП.Г(B2:B11)
  4. Нажмите Enter. Готово!

В нашем примере ДИСП.В вернёт значение примерно 9,56, а ДИСП.Г8,6. Разница как раз из-за деления на n-1 и n соответственно.

Убедитесь, что в диапазоне нет текстовых значений|

Проверьте, что все данные числовые|

Выберите правильную функцию (ДИСП.В или ДИСП.Г)|

Учитывайте, что пустые ячейки игнорируются автоматически-->

3. Распространённые ошибки и как их избежать

Даже опытные пользователи Excel иногда допускают ошибки при расчёте дисперсии. Вот наиболее частые из них:

  • Путаница между выборкой и генеральной совокупностью. Если вы анализируете не все данные, а только их часть (например, опрос 100 из 1000 клиентов), используйте ДИСП.В. Для полных данных — ДИСП.Г.
  • Игнорирование нечисловых значений. Функции ДИСП.В и ДИСП.Г пропускают текст и логические значения, но если вам нужно их учитывать (например, заменить на 0), используйте ДИСПА.
  • Ошибки в диапазоне. Убедитесь, что в формуле указан правильный диапазон ячеек. Например, B2:B11 и B2:B12 (если в B12 пусто) дадут разные результаты.
  • Использование устаревших функций. ДИСП и ДИСПР могут давать неточные результаты в новых версиях Excel. Отдавайте предпочтение функциям с точкой (ДИСП.В, ДИСП.Г).
⚠️ Внимание: Если в ваших данных есть ячейки с формулами, которые возвращают пустое значение (например, =""), функции дисперсии будут их игнорировать. Но если формула возвращает 0, это значение будет учтено в расчётах!

Ещё одна типичная проблема — округление результатов. Дисперсия часто получается дробным числом, и если ячейка отформатирована для отображения только целых чисел, вы можете не заметить разницы между ДИСП.В и ДИСП.Г. Чтобы избежать этого, увеличьте количество знаков после запятой в формате ячейки.

4. Дисперсия vs стандартное отклонение: в чём разница?

Дисперсия и стандартное отклонение тесно связаны: стандартное отклонение — это просто квадратный корень из дисперсии. В Excel для его расчёта используются функции СТАНДОТКЛОН.В (выборочное) и СТАНДОТКЛОН.Г (генеральное). Почему же тогда чаще говорят о дисперсии?

Дело в том, что дисперсия имеет более простые математические свойства. Например, дисперсия суммы независимых случайных величин равна сумме их дисперсий. Стандартное отклонение же интуитивно понятнее — оно измеряется в тех же единицах, что и исходные данные (например, если данные в метрах, то стандартное отклонение тоже в метрах, а дисперсия — в квадратных метрах).

Чтобы перейти от дисперсии к стандартному отклонению, достаточно извлечь квадратный корень:

=КОРЕНЬ(ДИСП.В(B2:B11))

или просто использовать:

=СТАНДОТКЛОН.В(B2:B11)
⚠️ Внимание: Если вы рассчитываете дисперсию для дальнейшего использования в других статистических тестах (например, t-критерий Стьюдента), никогда не заменяйте её стандартным отклонением без квадрата! Это приведёт к искажению результатов.

5. Продвинутые приёмы: дисперсия по условию и с группировкой

Иногда требуется рассчитать дисперсию не для всех данных, а только для тех, что удовлетворяют определённому условию. Например, дисперсию продаж только по будням или только для значений выше среднего. В Excel это можно сделать с помощью формул массива или функции ФИЛЬТР (в Excel 365).

Пример: рассчитаем дисперсию продаж только для дней, когда продажи были выше 15:

=ДИСП.В(ФИЛЬТР(B2:B11; B2:B11>15))
Примечание: эта формула работает только в Excel 365 или Excel 2021. Для более старых версий потребуется создать вспомогательный столбец с фильтром.

Если вам нужно рассчитать дисперсию по группам (например, дисперсию продаж для каждого региона отдельно), используйте сводные таблицы или функцию АГРЕГАТ с параметром 6 (дисперсия). Пример для группы "А":

=АГРЕГАТ(6; 6; (A2:A11="А")*(B2:B11))
Здесь (A2:A11="А") создаёт массив из ИСТИНА/ЛОЖЬ, который преобразуется в 1/0 при умножении.
Как рассчитать дисперсию без Excel?

Если у вас нет под рукой Excel, дисперсию можно рассчитать вручную по формуле:

1. Найдите среднее значение (μ).

2. Для каждого числа вычислите (xi - μ)².

3. Сложите все полученные значения.

4. Разделите на n (для генеральной совокупности) или n-1 (для выборки).

Пример для данных [12, 15, 14]:

- Среднее μ = (12+15+14)/3 = 13,67

- (12-13,67)² + (15-13,67)² + (14-13,67)² ≈ 2,78 + 1,78 + 0,11 = 4,67

- Дисперсия выборки = 4,67 / (3-1) ≈ 2,33

6. Визуализация дисперсии: графики и диаграммы

Числовое значение дисперсии не всегда наглядно. Чтобы лучше понять разброс данных, можно построить гистограмму или ящик с усами (box plot). В Excel для этого есть встроенные инструменты:

  • 📊 Гистограмма: показывает распределение данных. Выделите данные → Вставка → Гистограмма. Добавьте линию среднего, чтобы визуально оценить отклонения.
  • 🎯 Ящик с усами: отображает медиану, квартили и выбросы. В Excel 2016+ доступен через Вставка → Диаграммы → Ящик с усами.
  • 🔄 Линейная диаграмма с отклонениями: полезна для временных рядов. Добавьте линии стандартного отклонения через Добавление элементов диаграммы → Линии отклонения.

Пример: построим ящик с усами для наших данных о продажах:

1. Выделите диапазон B2:B11.

2. Перейдите на вкладку Вставка → выберите Ящик с усами.

3. Настройте оси и добавьте подписи данных.

Дисперсия и стандартное отклонение на графике помогают визуально оценить стабильность процесса. Например, если линии отклонения на линейной диаграмме резко расходятся, это сигнал о высокой волатильности данных.

7. Альтернативные способы расчёта дисперсии

Помимо встроенных функций, дисперсию можно рассчитать вручную с помощью формул. Это полезно, если вам нужно понять математику процесса или адаптировать расчёт под специфические условия.

Формула для выборочной дисперсии:

=СУММКВРАЗН(B2:B11;СРЗНАЧ(B2:B11))/(СЧЁТ(B2:B11)-1)

Для генеральной совокупности:

=СУММКВРАЗН(B2:B11;СРЗНАЧ(B2:B11))/СЧЁТ(B2:B11)

Такой подход даёт тот же результат, что и ДИСП.В/ДИСП.Г, но позволяет гибко модифицировать формулу. Например, можно добавить условие для игнорирования выбросов:

=СУММКВРАЗН(ЕСЛИ(B2:B11>5; ЕСЛИ(B2:B11<25; B2:B11)); СРЗНАЧ(ЕСЛИ(B2:B11>5; ЕСЛИ(B2:B11<25; B2:B11))))/(СЧЁТЕСЛИ(B2:B11; ">5")-СЧЁТЕСЛИ(B2:B11; ">25")-1)
Эта формула рассчитывает дисперсию только для значений от 5 до 25.

FAQ: Частые вопросы о дисперсии в Excel

❓ Почему моя дисперсия отрицательная? Это возможно?

Нет, дисперсия не может быть отрицательной, так как это сумма квадратов (а квадраты всегда неотрицательны). Если вы получили отрицательное значение, проверьте:

  • Не перепутали ли вы дисперсию с ковариацией (которая может быть отрицательной).
  • Нет ли ошибок в формуле (например, лишний минус перед функцией).
  • Не используете ли вы СУММКВРАЗН с неправильными аргументами.

❓ Можно ли рассчитать дисперсию для нечисловых данных?

Да, но сначала нужно преобразовать данные в числовой формат. Например:

  • Для категориальных данных (например, "Да"/"Нет") замените их на 1 и 0.
  • Для порядковых данных (например, "Низкий"/"Средний"/"Высокий") присвойте ранги (1, 2, 3).

После преобразования используйте стандартные функции дисперсии.

❓ В чём разница между ДИСП и ДИСП.В?

Функция ДИСП — это устаревшая версия ДИСП.В, оставленная для совместимости с Excel 2007 и более ранними версиями. В новых версиях Excel (2010 и новее) рекомендуется использовать ДИСП.В, так как она:

  • Поддерживает большие массивы данных.
  • Имеет более точный алгоритм расчёта.
  • Совместима с динамическими массивами (в Excel 365).

❓ Как рассчитать дисперсию для нескольких столбцов одновременно?

Если вам нужно рассчитать дисперсию для каждого столбца отдельно, используйте одну из этих стратегий:

  1. Копирование формулы: введите =ДИСП.В(B2:B11) для первого столбца, затем протяните формулу вправо.
  2. Массив формул: для Excel 365 используйте:
    =ДИСП.В(B2:D11)

    (вернёт массив дисперсий для каждого столбца B, C, D).

  3. Power Query: импортируйте данные в Power Query и добавьте столбец с расчётом дисперсии для каждой группы.

❓ Почему моя дисперсия не совпадает с расчётами в SPSS/R/Python?

Разница обычно возникает из-за:

  • Типа дисперсии: в SPSS по умолчанию может использоваться генеральная дисперсия (ДИСП.Г), а вы рассчитали выборочную (ДИСП.В).
  • Обработки пропусков: некоторые программы игнорируют пропуски иначе. В Excel пустые ячейки игнорируются автоматически.
  • Округления: проверьте количество знаков после запятой в настройках отображения.

Чтобы проверить, используйте в Python:

import numpy as np

data = [12, 15, 14, 18, 10, 20, 16, 13, 17, 15]

print(np.var(data, ddof=1)) # аналогично ДИСП.В