Критерий Манна-Уитни (или U-критерий) — это непараметрический метод статистики, который помогает сравнить две независимые выборки по уровню какого-либо признака. В отличие от t-критерия Стьюдента, он не требует нормального распределения данных и устойчив к выбросам. Но как его рассчитать, если под рукой только Excel, а специализированных программ вроде SPSS или R нет?
В этой статье вы найдёте пошаговую инструкцию с формулами, примерами и готовыми шаблонами для расчёта U-критерия прямо в электронных таблицах. Мы разберём не только базовый алгоритм, но и типичные ошибки, которые искажают результаты, а также покажем, как визуализировать данные для наглядности. Даже если вы никогда не сталкивались со статистикой, после прочтения сможете самостоятельно проанализировать две группы данных — будь то результаты тестов, медицинские показатели или маркетинговые метрики.
Что такое критерий Манна-Уитни и когда его использовать
U-критерий Манна-Уитни проверяет гипотезу о том, что две независимые выборки принадлежат одной и той же генеральной совокупности. Проще говоря, он отвечает на вопрос: "Есть ли статистически значимые различия между группами?". Например, вы можете сравнить:
- 📊 Эффективность двух маркетинговых кампаний по количеству лидов;
- 🩺 Уровень холестерина у пациентов до и после диеты;
- 🎓 Баллы студентов, обучающихся по разным программам.
Ключевое преимущество метода — он работает с порядковыми данными (рангами), а не с сырыми значениями. Это означает, что критерий устойчив к выбросам и не требует нормального распределения. Однако есть и ограничения:
⚠️ Внимание: Критерий Манна-Уитни не показывает размер эффекта — только факт его наличия. Для оценки силы различий дополнительно используйте, например, коэффициент Хэджеса или ранговую бисериальную корреляцию.
Когда нельзя применять U-критерий:
- 🔄 Если выборки зависимые (например, измерения до и после у одних и тех же испытуемых) — используйте критерий Уилкоксона;
- 📉 Если в данных слишком много одинаковых значений (связок) — более 25% от общего объёма;
- 📊 Если размер выборок меньше 5 наблюдений — результаты будут ненадёжными.
Подготовка данных в Excel: структурируем таблицу
Прежде чем приступать к расчётам, нужно правильно организовать данные. Вот минимальные требования к структуре таблицы:
- Две выборки должны быть в отдельных столбцах (например,
A2:A20иB2:B25); - Каждое наблюдение — в отдельной строке (не группируйте данные!);
- Удалите пустые ячейки и проверьте данные на ошибки (например, текст вместо чисел).
Пример правильной структуры:
| Группа 1 (Эксперимент) | Группа 2 (Контроль) |
|---|---|
| 12.5 | 9.8 |
| 15.1 | 11.3 |
| 10.8 | 14.2 |
| 18.0 | 10.5 |
Важно: Если выборки разного размера — это нормально. Критерий Манна-Уитни работает и с неравными группами. Однако минимальный размер меньшей выборки должен быть не менее 5 наблюдений, иначе результаты будут ненадёжными.
Пошаговый расчёт U-критерия в Excel
Теперь перейдём к самому алгоритму. Мы разобьём его на 5 этапов:
- Объединение выборок и ранжирование;
- Расчёт суммы рангов для каждой группы;
- Вычисление U-статистик;
- Определение критического значения;
- Сравнение и принятие решения.
Шаг 1. Объединение и ранжирование
Скопируйте данные из обеих выборок в один столбец (например, D2:D40), затем отсортируйте его по возрастанию. Далее присвойте каждому значению ранг (порядковый номер). Если встречаются одинаковые значения (связки), используйте средний ранг. Например, для значений 10, 10, 10 ранги будут 2, 2, 2 (среднее от 1+2+3).
Формула для ранга в Excel:
=РАНГ.СР(D2;$D$2:$D$40;1) + (СЧЁТЕСЛИ($D$2:$D$40;D2)-1)/2
Шаг 2. Сумма рангов
Вернитесь к исходным выборкам и подставьте ранги из объединённого столбца. Затем посчитайте сумму рангов для каждой группы (СУММ). Обозначим их как R1 и R2.
Объединённые данные отсортированы по возрастанию|
Ранги присвоены всем значениям, включая связки|
Суммы рангов посчитаны для обеих выборок|
Размеры выборок (n1 и n2) записаны отдельно-->
Формулы для расчёта U-статистик
Теперь, когда у нас есть суммы рангов (R1 и R2) и размеры выборок (n1 и n2), можно вычислить две U-статистики:
U1 = n1*n2 + n1*(n1+1)/2 - R1
U2 = n1*n2 + n2*(n2+1)/2 - R2
В Excel это будут формулы:
=A2*B2 + A2*(A2+1)/2 - C2 // для U1
=A2*B2 + B2*(B2+1)/2 - D2 // для U2
где:
A2— размер первой выборки (n1);B2— размер второй выборки (n2);C2— сумма рангов первой выборки (R1);D2— сумма рангов второй выборки (R2).
Из двух полученных значений (U1 и U2) выбираем меньшее — это и будет наш эмпирический U-критерий.
Почему выбираем меньшее U?
Меньшее значение U соответствует более редкому событию при нулевой гипотезе (отсутствии различий). Именно его мы сравниваем с критическим значением из таблиц.
Сравнение с критическим значением: принимаем решение
Чтобы понять, значимы ли различия между группами, нужно сравнить эмпирическое U (то, что мы посчитали) с критическим U из статистических таблиц. Критическое значение зависит от:
- 📏 Размеров выборок (
n1иn2); - 📊 Уровня значимости (обычно
α = 0.05).
Где взять критические значения?
- Используйте онлайн-таблицы (например, на Laerd Statistics);
- Возьмите из учебника по непараметрической статистике (например, Сидоренко Е.В. "Методы математической обработки в психологии");
- Посчитайте приближённо в Excel для больших выборок (
n1иn2> 20):
=НОРМ.ОБР(1-α/2)*КОРЕНЬ(n1*n2*(n1+n2+1)/12)
Правило принятия решения:
- Если эмпирическое U ≤ критического U → различия статистически значимы;
- Если эмпирическое U > критического U → различий нет.
⚠️ Внимание: При наличии большого количества связок (более 25%) используйте поправку на связки:= 1 - (СУММКВ(счёт_связок) / ((n1+n2)^3 - (n1+n2))) / 12где
счёт_связок— количество одинаковых значений для каждого ранга, возведённое в куб и просуммированное.Пример расчёта: разбор реального кейса
Рассмотрим практический пример. Допустим, у нас есть данные о времени реакции (в секундах) двух групп водителей после потребления кофеина и плацебо:
Кофеин (n1=8) Плацебо (n2=7) 0.52 0.61 0.48 0.68 0.55 0.72 0.43 0.59 0.50 0.65 0.47 0.70 0.53 0.63 0.49 - Шаги решения:
- Объединяем данные в один столбец и сортируем:
0.43, 0.47, 0.48, 0.49, 0.50, 0.52, 0.53, 0.55, 0.59, 0.61, 0.63, 0.65, 0.68, 0.70, 0.72- Присваиваем ранги (например, 0.43 → 1, 0.47 → 2, и т.д.);
- Суммируем ранги для каждой группы:
- Кофеин:
R1 = 1 + 2 + 3 + 5 + 6 + 7 + 8 + 4 = 36;- Плацебо:
R2 = 9 + 11 + 13 + 10 + 12 + 14 + 15 = 84.Вычисляем U: U1 = 8*7 + 8*(8+1)/2 - 36 = 16U2 = 8*7 + 7*(7+1)/2 - 84 = 40
Выбираем U = 16 (меньшее значение).
Сравниваем с критическим Uкр = 13(дляn1=8,n2=7,α=0.05).Вывод: Так как
16 > 13, различия между группами не значимы (кофеин не влияет на время реакции в этом эксперименте).Типичные ошибки и как их избежать
Даже опытные аналитики иногда допускают ошибки при расчёте критерия Манна-Уитни. Вот TOP-5 ловушек:
- 🔢 Неправильное ранжирование связок: Забывают присваивать средний ранг одинаковым значениям. Например, для 10, 10, 10 ранги должны быть 2, 2, 2 (а не 1, 2, 3).
- 📊 Игнорирование поправки на связки: Если связок много (>25%), необходимо скорректировать формулу критического U.
- 🔄 Путаница с зависимыми выборками: Критерий Манна-Уитни только для независимых групп! Для связанных пар используйте критерий Уилкоксона.
- 📉 Маленькие выборки: Если
n1илиn2< 5, результаты ненадёжны. Лучше использовать точный критерий Фишера.- 🔍 Ошибки в формулах Excel: Например, забывают зафиксировать диапазон в
РАНГ.СРзнаками$.Как проверить себя?
- Сравните сумму рангов с теоретической:
R1 + R2 = n1*(n1+n2+1)/2 + n2*(n1+n2+1)/2 = (n1+n2)*(n1+n2+1)/2Если равенство не выполняется — где-то ошибка в ранжировании.
- Используйте онлайн-калькуляторы (например, Social Science Statistics) для перепроверки.
Автоматизация расчётов: макрос для Манна-Уитни
Если вам часто приходится считать U-критерий, можно создать макрос в Excel, который выполнит все шаги автоматически. Вот пример кода на VBA:
Sub MannWhitneyU()Dim ws As Worksheet
Dim n1 As Integer, n2 As Integer
Dim R1 As Double, R2 As Double
Dim U1 As Double, U2 As Double
Set ws = ActiveSheet
n1 = ws.Range("A1").CurrentRegion.Rows.Count - 1 ' Размер первой выборки
n2 = ws.Range("B1").CurrentRegion.Rows.Count - 1 ' Размер второй выборки
' Копируем данные в временный столбец, сортируем, присваиваем ранги
' ... (здесь код для ранжирования)
' Считаем суммы рангов R1 и R2
R1 = Application.WorksheetFunction.Sum(ws.Range("C2:C" & n1 + 1))
R2 = Application.WorksheetFunction.Sum(ws.Range("D2:D" & n2 + 1))
' Вычисляем U
U1 = n1 n2 + n1 (n1 + 1) / 2 - R1
U2 = n1 n2 + n2 (n2 + 1) / 2 - R2
' Выводим результат
ws.Range("E1").Value = "U-критерий:"
ws.Range("E2").Value = WorksheetFunction.Min(U1, U2)
End Sub
Как использовать макрос:
- Нажмите
Alt + F11, чтобы открыть редактор VBA;- Вставьте код в новый модуль (
Insert → Module);- Вернитесь в Excel и запустите макрос через
View → Macros → MannWhitneyU.⚠️ Внимание: Перед запуском макроса убедитесь, что данные расположены в столбцахA(первая выборка) иB(вторая выборка), начиная со второй строки. В противном случае скорректируйте диапазоны в коде.FAQ: Частые вопросы по критерию Манна-Уитни
Можно ли использовать критерий Манна-Уитни для более чем двух выборок?
Нет, для сравнения трёх и более групп используйте критерий Краскела-Уоллиса (непараметрический аналог ANOVA). Манна-Уитни работает только с парными сравнениями.
Что делать, если в данных есть выбросы?
Критерий Манна-Уитни устойчив к выбросам, так как оперирует рангами, а не сырыми значениями. Однако если выбросов много (например, более 10% данных), рассмотрите возможность их исключения или использования робастных методов.
Как интерпретировать p-value для U-критерия?
Если вы используете специализированное ПО (например, SPSS или Python), оно может выдавать
p-valueвместо U. Правило простое:
- Если
p ≤ 0.05→ различия значимы;- Если
p > 0.05→ различий нет.В Excel
p-valueможно приблизительно оценить через нормальное распределение (для больших выборок).Можно ли применять U-критерий для номинальных данных?
Нет, критерий Манна-Уитни предназначен для порядковых или количественных данных. Для номинальных переменных (например, "да/нет") используйте критерий хи-квадрат или точный критерий Фишера.
Где найти готовые шаблоны Excel для Манна-Уитни?
Готовые шаблоны можно скачать:
- На сайте Real Statistics (надстройка для Excel);
- В репозитории GitHub (поиск по запросу "Mann-Whitney Excel template");
- В учебных материалах по статистике (например, книги Энди Филда "Discovery Statistics Using IBM SPSS").
Обратите внимание на лицензию и проверяйте формулы перед использованием!