Как рассчитать критерий Манна-Уитни в Excel: формулы, примеры и лайфхаки

Непараметрическая статистика в Microsoft Excel часто кажется пользователям чем-то загадочным: нет встроенных функций для критериев Манна-Уитни или Вилкоксона, зато есть горы формул и ручных вычислений. Однако критерий Манна-Уитни (он же U-критерий) — один из самых востребованных инструментов для сравнения двух независимых выборок, когда данные не подчиняются нормальному распределению. Его расчёт в Excel вполне реален — и сегодня мы разберём, как это сделать без плагинов, используя только стандартные функции.

Многие ошибочно считают, что для непараметрических тестов обязателен SPSS или R. На практике же достаточно грамотно применить комбинацию РАНГ.СР, СУММПРОИЗВ и базовой арифметики. В этой статье вы найдёте пошаговый алгоритм с формулами, обработкой связей (одинаковых значений) и даже автоматизированным шаблоном для повторного использования. А если вы никогда не сталкивались с ранговыми критериями — не беда: мы начнём с основ.

Что такое критерий Манна-Уитни и когда его использовать

Критерий Манна-Уитни (или U-критерий) — это непараметрический тест, который оценивает, отличаются ли две независимые выборки по уровню какого-либо признака. В отличие от t-критерия Стьюдента, он не требует нормального распределения данных и устойчив к выбросам. Его часто применяют в:

  • 🔬 Медицине: сравнение эффективности двух методов лечения (например, новой терапии vs плацебо).
  • 📊 Социологии: анализ различий в мнениях двух групп респондентов (мужчины vs женщины, молодёжь vs пожилые).
  • 🎓 Педагогике: оценка успеваемости студентов до и после внедрения новой программы обучения.
  • 💼 Бизнесе: сравнение продаж двух филиалов или реакции клиентов на разные рекламные кампании.

Главное условие для применения U-критерия: выборки должны быть независимыми (например, нельзя сравнивать показатели одних и тех же людей до и после эксперимента — для этого нужен критерий Вилкоксона). Также данные должны быть хотя бы порядковыми (т.е. их можно ранжировать: "лучше/хуже", "больше/меньше").

Когда НЕ стоит использовать Манна-Уитни:

  • 🚫 Если выборки зависимые (парные наблюдения).
  • 🚫 Если в данных слишком много одинаковых значений (связей) — более 25% от общего объёма.
  • 🚫 Если размер выборок меньше 5 наблюдений (тест теряет мощность).
📊 Для чего вы чаще всего используете непараметрические тесты?
Анализ медицинских данных
Обработка социологических опросов
Сравнение бизнес-показателей
Учёба/наука
Другое

Подготовка данных в Excel: структурируем выборки

Прежде чем приступать к расчётам, нужно правильно организовать данные. У вас должно быть два столбца с наблюдениями (например, Группа 1 и Группа 2). Важно:

  • 📋 Обе выборки должны быть вертикальными (каждое наблюдение — в отдельной строке).
  • 🔢 Не должно быть пустых ячеек или текстовых значений (только числа).
  • 🔍 Если в данных есть одинаковые значения (связи), их нужно будет специально обработать (об этом позже).

Пример правильной структуры:

Группа 1Группа 2
1215
189
1417
1012
1611

Профессиональный совет: если выборки разного размера, ничего страшного — критерий Манна-Уитни это допускает. Однако чем больше разница в объёмах, тем менее чувствительным становится тест.

⚠️ Внимание: Если в ваших данных есть выбросы (например, одно значение в 100 раз больше остальных), их лучше удалить или заменить на ближайшее разумное значение. U-критерий устойчив к выбросам, но они могут искажать ранги.

Шаг 1: Объединение выборок и ранжирование

Первый этап расчёта — присвоение рангов всем наблюдениям объединённой выборки. Для этого:

  1. Скопируйте данные из обеих групп в один столбец (например, Объединённая выборка).
  2. Отсортируйте значения по возрастанию (выделите столбец → Данные → Сортировка от минимального к максимальному).
  3. Присвойте ранги с помощью функции =РАНГ.СР(ячейка; диапазон; 1), где:
  • ячейка — адрес текущего значения.
  • диапазон — весь столбец с объединёнными данными.
  • 1 — порядок сортировки (по возрастанию).

Пример формулы для первой ячейки ранга: =РАНГ.СР(A2; $A$2:$A$11; 1).

Что делать со связями (одинаковыми значениями)? Функция РАНГ.СР автоматически присваивает им средний ранг. Например, если два значения делят 3-е и 4-е места, оба получат ранг 3.5. Это корректно для Манна-Уитни.

Удалил все пустые ячейки и текстовые значения|

Объединил выборки в один столбец|

Отсортировал данные по возрастанию|

Проверил формулу РАНГ.СР на первых 3 значениях-->

Шаг 2: Расчёт суммы рангов для каждой группы

После присвоения рангов нужно вернуть их обратно в исходные группы. Для этого:

  1. Добавьте рядом с каждой исходной выборкой столбец для рангов.
  2. Используйте функцию ВПР или ИНДЕКС/ПОИСКПОЗ, чтобы "подтянуть" ранги из объединённого столбца. Пример:
=ВПР(B2; Таблица_рангов; 2; ЛОЖЬ)

где Таблица_рангов — диапазон с объединёнными данными и их рангами.

Затем посчитайте сумму рангов для каждой группы с помощью СУММ. Обозначим их как R1 (для группы 1) и R2 (для группы 2).

Формулы для проверки:

  • Сумма всех рангов должна равняться n*(n+1)/2, где n — общее число наблюдений.
  • Если суммы R1 и R2 сильно отличаются, это может указывать на значимые различия между группами.
⚠️ Внимание: Если при копировании рангов назад в группы вы получаете ошибку #Н/Д, проверьте, нет ли в данных дубликатов (кроме связей). Функция ВПР возвращает первое найденное совпадение, что может исказить результаты.

Шаг 3: Вычисление U-статистики

Теперь переходим к самой U-статистике. Формулы для её расчёта:

U1 = n1  n2 + n1  (n1 + 1) / 2 - R1

U2 = n1 n2 + n2 (n2 + 1) / 2 - R2

где:

  • n1, n2 — размеры первой и второй выборок.
  • R1, R2 — суммы рангов для групп.

В Excel это будет выглядеть так (предположим, n1 в ячейке D1, n2 в D2, R1 в D3):

=D1*D2 + D1*(D1+1)/2 - D3

Из двух полученных значений (U1 и U2) выбираем меньшее — это и будет наша тестовая статистика U.

Критическая деталь: если в ваших данных много связей (более 20%), то перед сравнением с критическими значениями нужно скорректировать U-статистику. Об этом — в следующем разделе.

Почему выбираем меньшее U?

Манна-Уитни — двусторонний тест, и меньшее U соответствует более экстремальному (значимому) отклонению от нулевой гипотезы. Если U1 = 5 и U2 = 15, то 5 — это то значение, которое мы сравниваем с критическими таблицами.

Шаг 4: Коррекция на связи (одинаковые значения)

Если в данных есть одинаковые значения (связи), то дисперсия U-статистики занижается, и тест становится слишком "чувствительным". Чтобы это исправить, нужно:

  1. Найти все группы одинаковых значений в объединённой выборке.
  2. Для каждой группы посчитать t = количество одинаковых значений.
  3. Вычислить поправку:
C = 1 - (Σ(t³ - t)) / (n³ - n)

где суммирование идёт по всем группам связей.

Затем скорректированное значение U сравнивают с критическим, умноженным на √C. На практике в Excel это делают так:

  • 📌 Создайте вспомогательную таблицу с количеством повторов для каждого уникального значения (функция СЧЁТЕСЛИ).
  • 📌 Посчитайте t³ - t для каждой группы связей.
  • 📌 Подставьте сумму в формулу поправки.

Пример: Если значение "12" встречается 3 раза, то для этой группы t³ - t = 27 - 3 = 24.

⚠️ Внимание: Если поправка C получилась меньше 0.9, это значит, что в данных слишком много связей, и результаты теста могут быть ненадёжными. В таком случае лучше использовать другой метод (например, бутстрэп).

Шаг 5: Сравнение с критическими значениями и интерпретация

Последний этап — сравнить полученное U с критическим значением из таблицы Манна-Уитни. Критические значения зависят от:

  • 📏 Размеров выборок (n1 и n2).
  • 🎯 Уровня значимости (α, обычно 0.05 или 0.01).

Где взять таблицу? Её можно:

  • 🔍 Найти в учебниках по статистике (например, Сидоренко Е.В. "Методы математической обработки в психологии").
  • 🌐 Скачать из открытых источников (например, statistics.laerd.com).
  • 📊 Ввести в Excel вручную (пример для α = 0.05):
n1\n25678
50112
61234
71356
82468

Правило принятия решения:

  • Если U ≤ Uкритотвергаем нулевую гипотезу (различия между группами значимы).
  • Если U > Uкритнет оснований отвергать нулевую гипотезу.

Для больших выборок (n1 и n2 > 20) можно использовать z-приближение:

z = (U - μ) / σ

где:

  • μ = n1 * n2 / 2
  • σ = √(n1 n2 (n1 + n2 + 1) / 12)

Автоматизация расчётов: шаблон Excel для Манна-Уитни

Чтобы не повторять все шаги вручную, можно создать универсальный шаблон в Excel. Для этого:

  1. Создайте лист с двумя столбцами для выборок (Группа 1 и Группа 2).
  2. Добавьте столбцы для рангов и вспомогательные ячейки для n1, n2, R1, R2.
  3. Запрограммируйте формулы для U1, U2 и поправки на связи.
  4. Добавьте таблицу критических значений или формулу для z-приближения.

Пример готовой структуры:

Шаблон Excel для критерия Манна-Уитни

Такой шаблон можно сохранять и использовать для новых данных — достаточно вводить значения в первые два столбца.

FAQ: Частые вопросы по расчёту Манна-Уитни в Excel

Можно ли использовать Манна-Уитни для зависимых выборок?

Нет, для зависимых выборок (например, измерения до и после эксперимента у одних и тех же объектов) нужно использовать критерий Вилкоксона. Манна-Уитни предназначен только для независимых групп.

Что делать, если в данных есть нулевые значения?

Нули — это допустимые значения, если они имеют смысл в контексте ваших данных (например, нулевой доход). Их ранжируют наравне с остальными. Если же ноль означает пропущенное наблюдение, такие строки лучше исключить.

Как интерпретировать результат, если U равно критическому значению?

Если U = Uкрит, это пограничный случай. Статистически значимых различий нет, но они "almost significant". В таких случаях рекомендуется увеличить размер выборки или использовать более чувствительный тест.

Можно ли применять Манна-Уитни для выборок размером 3 и 4?

Технически да, но мощность теста будет крайне низкой. Для таких маленьких выборок лучше использовать точный тест Фишера или дескриптивную статистику.

Где взять критические значения для нестандартных n1 и n2?

Для нетипичных сочетаний размеров выборок (например, 7 и 12) критические значения можно:

  • Рассчитать через z-приближение (см. формулы выше).
  • Найти в расширенных таблицах (например, в книге "Nonparametric Statistics for the Behavioral Sciences" Сиднея Сигела).
  • Использовать онлайн-калькуляторы (но проверяйте их надёжность!).