Как посчитать критерий Манна-Уитни в Excel: формулы, примеры и лайфхаки

Критерий Манна-Уитни (или U-критерий) — это непараметрический метод статистики, который помогает сравнить две независимые выборки по уровню какого-либо признака. В отличие от t-критерия Стьюдента, он не требует нормального распределения данных и устойчив к выбросам. Но как его рассчитать, если под рукой только Excel, а специализированных программ вроде SPSS или R нет?

В этой статье вы найдёте пошаговую инструкцию с формулами, примерами и готовыми шаблонами для расчёта U-критерия прямо в электронных таблицах. Мы разберём не только базовый алгоритм, но и типичные ошибки, которые искажают результаты, а также покажем, как визуализировать данные для наглядности. Даже если вы никогда не сталкивались со статистикой, после прочтения сможете самостоятельно проанализировать две группы данных — будь то результаты тестов, медицинские показатели или маркетинговые метрики.

Что такое критерий Манна-Уитни и когда его использовать

U-критерий Манна-Уитни проверяет гипотезу о том, что две независимые выборки принадлежат одной и той же генеральной совокупности. Проще говоря, он отвечает на вопрос: "Есть ли статистически значимые различия между группами?". Например, вы можете сравнить:

  • 📊 Эффективность двух маркетинговых кампаний по количеству лидов;
  • 🩺 Уровень холестерина у пациентов до и после диеты;
  • 🎓 Баллы студентов, обучающихся по разным программам.

Ключевое преимущество метода — он работает с порядковыми данными (рангами), а не с сырыми значениями. Это означает, что критерий устойчив к выбросам и не требует нормального распределения. Однако есть и ограничения:

⚠️ Внимание: Критерий Манна-Уитни не показывает размер эффекта — только факт его наличия. Для оценки силы различий дополнительно используйте, например, коэффициент Хэджеса или ранговую бисериальную корреляцию.

Когда нельзя применять U-критерий:

  • 🔄 Если выборки зависимые (например, измерения до и после у одних и тех же испытуемых) — используйте критерий Уилкоксона;
  • 📉 Если в данных слишком много одинаковых значений (связок) — более 25% от общего объёма;
  • 📊 Если размер выборок меньше 5 наблюдений — результаты будут ненадёжными.
📊 Для чего вам нужен критерий Манна-Уитни?
Для научной работы
Для бизнес-аналитики
Для медицинских исследований
Для учебного проекта
Другое

Подготовка данных в Excel: структурируем таблицу

Прежде чем приступать к расчётам, нужно правильно организовать данные. Вот минимальные требования к структуре таблицы:

  1. Две выборки должны быть в отдельных столбцах (например, A2:A20 и B2:B25);
  2. Каждое наблюдение — в отдельной строке (не группируйте данные!);
  3. Удалите пустые ячейки и проверьте данные на ошибки (например, текст вместо чисел).

Пример правильной структуры:

Группа 1 (Эксперимент)Группа 2 (Контроль)
12.59.8
15.111.3
10.814.2
18.010.5

Важно: Если выборки разного размера — это нормально. Критерий Манна-Уитни работает и с неравными группами. Однако минимальный размер меньшей выборки должен быть не менее 5 наблюдений, иначе результаты будут ненадёжными.

Пошаговый расчёт U-критерия в Excel

Теперь перейдём к самому алгоритму. Мы разобьём его на 5 этапов:

  1. Объединение выборок и ранжирование;
  2. Расчёт суммы рангов для каждой группы;
  3. Вычисление U-статистик;
  4. Определение критического значения;
  5. Сравнение и принятие решения.

Шаг 1. Объединение и ранжирование

Скопируйте данные из обеих выборок в один столбец (например, D2:D40), затем отсортируйте его по возрастанию. Далее присвойте каждому значению ранг (порядковый номер). Если встречаются одинаковые значения (связки), используйте средний ранг. Например, для значений 10, 10, 10 ранги будут 2, 2, 2 (среднее от 1+2+3).

Формула для ранга в Excel:

=РАНГ.СР(D2;$D$2:$D$40;1) + (СЧЁТЕСЛИ($D$2:$D$40;D2)-1)/2

Шаг 2. Сумма рангов

Вернитесь к исходным выборкам и подставьте ранги из объединённого столбца. Затем посчитайте сумму рангов для каждой группы (СУММ). Обозначим их как R1 и R2.

Объединённые данные отсортированы по возрастанию|

Ранги присвоены всем значениям, включая связки|

Суммы рангов посчитаны для обеих выборок|

Размеры выборок (n1 и n2) записаны отдельно-->

Формулы для расчёта U-статистик

Теперь, когда у нас есть суммы рангов (R1 и R2) и размеры выборок (n1 и n2), можно вычислить две U-статистики:

U1 = n1*n2 + n1*(n1+1)/2 - R1

U2 = n1*n2 + n2*(n2+1)/2 - R2

В Excel это будут формулы:

=A2*B2 + A2*(A2+1)/2 - C2  // для U1

=A2*B2 + B2*(B2+1)/2 - D2 // для U2

где:

  • A2 — размер первой выборки (n1);
  • B2 — размер второй выборки (n2);
  • C2 — сумма рангов первой выборки (R1);
  • D2 — сумма рангов второй выборки (R2).

Из двух полученных значений (U1 и U2) выбираем меньшее — это и будет наш эмпирический U-критерий.

Почему выбираем меньшее U?

Меньшее значение U соответствует более редкому событию при нулевой гипотезе (отсутствии различий). Именно его мы сравниваем с критическим значением из таблиц.

Сравнение с критическим значением: принимаем решение

Чтобы понять, значимы ли различия между группами, нужно сравнить эмпирическое U (то, что мы посчитали) с критическим U из статистических таблиц. Критическое значение зависит от:

  • 📏 Размеров выборок (n1 и n2);
  • 📊 Уровня значимости (обычно α = 0.05).

Где взять критические значения?

  1. Используйте онлайн-таблицы (например, на Laerd Statistics);
  2. Возьмите из учебника по непараметрической статистике (например, Сидоренко Е.В. "Методы математической обработки в психологии");
  3. Посчитайте приближённо в Excel для больших выборок (n1 и n2 > 20):
=НОРМ.ОБР(1-α/2)*КОРЕНЬ(n1*n2*(n1+n2+1)/12)

Правило принятия решения:

  • Если эмпирическое U ≤ критического U → различия статистически значимы;
  • Если эмпирическое U > критического U → различий нет.
⚠️ Внимание: При наличии большого количества связок (более 25%) используйте поправку на связки:
= 1 - (СУММКВ(счёт_связок) / ((n1+n2)^3 - (n1+n2))) / 12

где счёт_связок — количество одинаковых значений для каждого ранга, возведённое в куб и просуммированное.

Пример расчёта: разбор реального кейса

Рассмотрим практический пример. Допустим, у нас есть данные о времени реакции (в секундах) двух групп водителей после потребления кофеина и плацебо:

Кофеин (n1=8)Плацебо (n2=7)
0.520.61
0.480.68
0.550.72
0.430.59
0.500.65
0.470.70
0.530.63
0.49-

Шаги решения:

  1. Объединяем данные в один столбец и сортируем:
  2. 0.43, 0.47, 0.48, 0.49, 0.50, 0.52, 0.53, 0.55, 0.59, 0.61, 0.63, 0.65, 0.68, 0.70, 0.72
  3. Присваиваем ранги (например, 0.43 → 1, 0.47 → 2, и т.д.);
  4. Суммируем ранги для каждой группы:
    • Кофеин: R1 = 1 + 2 + 3 + 5 + 6 + 7 + 8 + 4 = 36;
    • Плацебо: R2 = 9 + 11 + 13 + 10 + 12 + 14 + 15 = 84.
  • Вычисляем U:
    U1 = 8*7 + 8*(8+1)/2 - 36 = 16
    

    U2 = 8*7 + 7*(7+1)/2 - 84 = 40

    Выбираем U = 16 (меньшее значение).

  • Сравниваем с критическим Uкр = 13 (для n1=8, n2=7, α=0.05).
  • Вывод: Так как 16 > 13, различия между группами не значимы (кофеин не влияет на время реакции в этом эксперименте).

    Типичные ошибки и как их избежать

    Даже опытные аналитики иногда допускают ошибки при расчёте критерия Манна-Уитни. Вот TOP-5 ловушек:

    • 🔢 Неправильное ранжирование связок: Забывают присваивать средний ранг одинаковым значениям. Например, для 10, 10, 10 ранги должны быть 2, 2, 2 (а не 1, 2, 3).
    • 📊 Игнорирование поправки на связки: Если связок много (>25%), необходимо скорректировать формулу критического U.
    • 🔄 Путаница с зависимыми выборками: Критерий Манна-Уитни только для независимых групп! Для связанных пар используйте критерий Уилкоксона.
    • 📉 Маленькие выборки: Если n1 или n2 < 5, результаты ненадёжны. Лучше использовать точный критерий Фишера.
    • 🔍 Ошибки в формулах Excel: Например, забывают зафиксировать диапазон в РАНГ.СР знаками $.

    Как проверить себя?

    • Сравните сумму рангов с теоретической:
      R1 + R2 = n1*(n1+n2+1)/2 + n2*(n1+n2+1)/2 = (n1+n2)*(n1+n2+1)/2

      Если равенство не выполняется — где-то ошибка в ранжировании.

    • Используйте онлайн-калькуляторы (например, Social Science Statistics) для перепроверки.

    Автоматизация расчётов: макрос для Манна-Уитни

    Если вам часто приходится считать U-критерий, можно создать макрос в Excel, который выполнит все шаги автоматически. Вот пример кода на VBA:

    Sub MannWhitneyU()
    

    Dim ws As Worksheet

    Dim n1 As Integer, n2 As Integer

    Dim R1 As Double, R2 As Double

    Dim U1 As Double, U2 As Double

    Set ws = ActiveSheet

    n1 = ws.Range("A1").CurrentRegion.Rows.Count - 1 ' Размер первой выборки

    n2 = ws.Range("B1").CurrentRegion.Rows.Count - 1 ' Размер второй выборки

    ' Копируем данные в временный столбец, сортируем, присваиваем ранги

    ' ... (здесь код для ранжирования)

    ' Считаем суммы рангов R1 и R2

    R1 = Application.WorksheetFunction.Sum(ws.Range("C2:C" & n1 + 1))

    R2 = Application.WorksheetFunction.Sum(ws.Range("D2:D" & n2 + 1))

    ' Вычисляем U

    U1 = n1 n2 + n1 (n1 + 1) / 2 - R1

    U2 = n1 n2 + n2 (n2 + 1) / 2 - R2

    ' Выводим результат

    ws.Range("E1").Value = "U-критерий:"

    ws.Range("E2").Value = WorksheetFunction.Min(U1, U2)

    End Sub

    Как использовать макрос:

    1. Нажмите Alt + F11, чтобы открыть редактор VBA;
    2. Вставьте код в новый модуль (Insert → Module);
    3. Вернитесь в Excel и запустите макрос через View → Macros → MannWhitneyU.
    ⚠️ Внимание: Перед запуском макроса убедитесь, что данные расположены в столбцах A (первая выборка) и B (вторая выборка), начиная со второй строки. В противном случае скорректируйте диапазоны в коде.

    FAQ: Частые вопросы по критерию Манна-Уитни

    Можно ли использовать критерий Манна-Уитни для более чем двух выборок?

    Нет, для сравнения трёх и более групп используйте критерий Краскела-Уоллиса (непараметрический аналог ANOVA). Манна-Уитни работает только с парными сравнениями.

    Что делать, если в данных есть выбросы?

    Критерий Манна-Уитни устойчив к выбросам, так как оперирует рангами, а не сырыми значениями. Однако если выбросов много (например, более 10% данных), рассмотрите возможность их исключения или использования робастных методов.

    Как интерпретировать p-value для U-критерия?

    Если вы используете специализированное ПО (например, SPSS или Python), оно может выдавать p-value вместо U. Правило простое:

    • Если p ≤ 0.05 → различия значимы;
    • Если p > 0.05 → различий нет.

    В Excel p-value можно приблизительно оценить через нормальное распределение (для больших выборок).

    Можно ли применять U-критерий для номинальных данных?

    Нет, критерий Манна-Уитни предназначен для порядковых или количественных данных. Для номинальных переменных (например, "да/нет") используйте критерий хи-квадрат или точный критерий Фишера.

    Где найти готовые шаблоны Excel для Манна-Уитни?

    Готовые шаблоны можно скачать:

    • На сайте Real Statistics (надстройка для Excel);
    • В репозитории GitHub (поиск по запросу "Mann-Whitney Excel template");
    • В учебных материалах по статистике (например, книги Энди Филда "Discovery Statistics Using IBM SPSS").

    Обратите внимание на лицензию и проверяйте формулы перед использованием!