Корреляция в Excel: как выбрать между Спирменом и Пирсоном + примеры расчета

Если в вашей таблице Excel данные не подчиняются нормальному распределению или содержат выбросы, коэффициент корреляции Пирсона (=КОРРЕЛ) даст искажённые результаты — даже при сильной линейной зависимости показатель может оказаться близким к нулю. В этом случае корреляция Спирмена (=КОРРЕЛ.СПИРМЕН) станет более надёжной альтернативой, так как оценивает не линейную связь, а монотонную (включая нелинейные зависимости). Ошибка в выборе метода ведёт к неверным выводам: например, при анализе ранжированных данных (рейтинги, баллы) Пирсон завышает значимость связи на 20–30% по сравнению со Спирменом.

Разница между методами проявляется уже на этапе подготовки данных. Пирсон требует непрерывных числовых переменных с нормальным распределением, тогда как Спирмен работает с рангами (порядковыми номерами значений) и устойчив к выбросам. Например, при анализе зависимости между возрастом сотрудников и их зарплатой (где распределение зарплат часто асимметрично) использование Пирсона без проверки нормальности приведёт к ложной интерпретации силы связи. В Excel оба коэффициента рассчитываются встроенными функциями, но их выбор должен основываться на типе данных и цели анализа.

Ключевые различия между корреляцией Пирсона и Спирмена

Коэффициент Пирсона (r) измеряет линейную зависимость между двумя непрерывными переменными, предполагая, что обе распределены нормально. Его значения варьируются от –1 до +1, где:

  • 📈 +1 — идеальная положительная линейная зависимость;
  • 📉 –1 — идеальная отрицательная линейная зависимость;
  • 🟢 0 — отсутствие линейной связи (но возможна нелинейная!).

Спирмен (ρ) оценивает монотонную зависимость (включая криволинейные связи) и работает с рангами данных. Он менее чувствителен к выбросам и не требует нормальности распределения. Например, если при росте одной переменной другая всегда увеличивается (пусть и неравномерно), Спирмен покажет высокую корреляцию, тогда как Пирсон может её не заметить.

Пример из практики

Когда Пирсон"обманывает":

В исследовании зависимости между уровнем образования (порядковая шкала:"начальное","среднее","высшее") и доходом Пирсон дал r = 0.45, а Спирмен — ρ = 0.78. Разница возникла потому, что связь была нелинейной: доход резко рос при переходе от среднего к высшему образованию, но почти не менялся внутри групп. Пирсон"сгладил" эту особенность, тогда как Спирмен её выявил.

Критерий Пирсон (r) Спирмен (ρ)
Тип зависимости Только линейная Любая монотонная (включая нелинейную)
Тип данных Непрерывные, нормально распределённые Любые (включая порядковые и ранжированные)
Чувствительность к выбросам Высокая Низкая
Формула в Excel =КОРРЕЛ(массив1;массив2) =КОРРЕЛ.СПИРМЕН(массив1;массив2)

Когда использовать Пирсона: 3 обязательных условия

Коэффициент Пирсона даёт точные результаты только при соблюдении трёх условий:

  1. Линейность связи. Если на графике рассеяния точки образуют прямую линию (или близкую к ней), Пирсон подходит. Для проверки постройте диаграмму в Excel: Вставка → Диаграмма → Точечная.
  2. Нормальное распределение. Используйте тест Шапиро-Уилка или визуально оцените гистограмму (вкладка Данные → Анализ данных → Гистограмма). При асимметрии или эксцессе >1 лучше выбрать Спирмена.
  3. Отсутствие выбросов. Выбросы искажают среднее и стандартное отклонение, на которых основан Пирсон. Удалите их или используйте =КВАРТИЛЬ для обрезки данных.
⚠️ Внимание: Если хотя бы одно из условий нарушено, Пирсон завышает или занижает силу связи. Например, при наличии выбросов коэффициент может показать r = 0.9, хотя реальная зависимость слабая.

Для быстрой проверки нормальности в Excel:

=СЧЁТЕСЛИ(диапазон;">медиана") - СЧЁТЕСЛИ(диапазон;"<медиана")

Если разница превышает 20% от общего числа наблюдений, распределение асимметрично — используйте Спирмена.

Спирмен: когда и как применять

Корреляция Спирмена незаменима в четырёх случаях:

  • 📊 Данные ранжированы (например, места в соревнованиях, баллы по шкале Лайкерта).
  • 🔍 Распределение не нормальное (асимметрия, эксцесс, мультимодальность).
  • 🚨 Есть выбросы, которые нельзя удалить.
  • 📈 Зависимость нелинейная (например, логарифмическая или экспоненциальная).

Пример расчёта Спирмена в Excel:

  1. Подготовьте два столбца с данными (например, A2:A100 и B2:B100).
  2. Введите формулу: =КОРРЕЛ.СПИРМЕН(A2:A100; B2:B100).
  3. Для интерпретации используйте шкалу:
    • 0.7–1.0: сильная зависимость;
    • 0.3–0.7: умеренная;
    • –0.3–0.3: слабая или отсутствует.

Пошаговая инструкция: как рассчитать оба коэффициента в Excel

Рассмотрим пример с данными о расходах на рекламу (столбец A) и продажах (столбец B):

Проверьте диапазоны на пустые ячейки и ошибки (#Н/Д, #ЗНАЧ!)|Удалите выбросы (если они не критичны для анализа)|Преобразуйте текстовые данные в числовые (например,"высокий/средний/низкий" → 3/2/1)|Сортируйте данные по возрастанию для визуальной оценки тренда

-->

  1. Пирсон:
    =КОРРЕЛ(A2:A50; B2:B50)

    Результат: 0.87 (сильная положительная линейная зависимость).

  2. Спирмен:
    =КОРРЕЛ.СПИРМЕН(A2:A50; B2:B50)

    Результат: 0.91 (ещё выше, так как зависимость монотонна, но не строго линейна).

  3. Визуализация: Постройте точечную диаграмму (Вставка → Точечная) и добавьте линию тренда (Щелчок правой кнопкой по точкам → Добавить линию тренда). Если линия кривая — используйте Спирмена.
⚠️ Внимание: Если в данных есть повторяющиеся значения, Спирмен может занижать коэффициент. В этом случае используйте поправку для связок или перейдите на корреляцию Кендалла (=КОРРЕЛ.КЕНДАЛЛ в Excel 2019+).

Ошибки при выборе метода и как их избежать

Типичные ошибки и их последствия:

Ошибка Последствие Решение
Использование Пирсона для порядковых данных Завышение корреляции на 30–50% Перейти на Спирмена или Кендалла
Игнорирование выбросов Ложная сильная/слабая корреляция Удалить выбросы или использовать =КВАРТИЛЬ.ВКЛ
Пирсон для нелинейных зависимостей Коэффициент близок к 0, хотя связь есть Построить график, применить Спирмена

Критическая ошибка: использование Пирсона для ранжированных данных (например, оценки"отлично/хорошо/удовлетворительно"). В этом случае коэффициент теряет смысл, так как предполагает равные интервалы между категориями, которых нет. Например, разница между"отлично" и"хорошо" не равна разнице между"хорошо" и"удовлетворительно".

📊 Какой коэффициент корреляции вы используете чаще?
Пирсон
Спирмен
Кендалл
Зависит от данных

Практический пример: анализ продаж и рекламного бюджета

Допустим, у вас есть данные о ежемесячных расходах на рекламу (столбец C) и продажах (столбец D) за год. Ваша задача — определить, как бюджет влияет на продажи.

Шаг 1. Проверка нормальности. Постройте гистограмму для каждого столбца: Данные → Анализ данных → Гистограмма. Если распределение близко к колоколообразному — используйте Пирсона. Если асимметрично (например, большинство значений сконцентрировано слева) — Спирмена.

Шаг 2. Расчёт корреляции.

  • Для Пирсона: =КОРРЕЛ(C2:C13; D2:D13) → результат 0.76.
  • Для Спирмена: =КОРРЕЛ.СПИРМЕН(C2:C13; D2:D13) → результат 0.89.

Разница в 0.13 указывает на нелинейность: при малых бюджетах продажи растут медленно, а после порога в 50 тыс. руб. — скачкообразно.

Шаг 3. Интерпретация. Спирмен показывает более сильную зависимость, так как учитывает нелинейный характер роста продаж. Вывод: увеличение рекламного бюджета всегда ведёт к росту продаж (монотонная зависимость), но не обязательно пропорционально (линейная зависимость слабее).

Дополнительные инструменты Excel для анализа корреляции

Помимо базовых функций, в Excel есть инструменты для углублённого анализа:

  • 📊 Корреляционная матрица. Используйте Анализ данных → Корреляция (включите надстройку Пакет анализа через Файл → Параметры → Надстройки). Матрица покажет корреляцию между всеми парами переменных.
  • 🔍 Регрессионный анализ. Командой Анализ данных → Регрессия вы получите не только коэффициент (квадрат Пирсона), но и статистическую значимость связи (значение p-value).
  • 📈 Графики рассеяния с линией тренда. Добавьте уравнение тренда на диаграмму, чтобы визуально оценить тип зависимости (линейная, полиномиальная, логарифмическая).

Для автоматизации расчётов создайте пользовательскую функцию на VBA:

Function CORREL_TYPE(rng1 As Range, rng2 As Range, Optional method As String ="Pearson") As Double

If method ="Spearman" Then

CORREL_TYPE = Application.WorksheetFunction.Correl_Spearman(rng1, rng2)

Else

CORREL_TYPE = Application.WorksheetFunction.Correl(rng1, rng2)

End If

End Function

Теперь вы сможете использовать =CORREL_TYPE(A2:A100; B2:B100;"Spearman") для гибкого выбора метода.

FAQ: ответы на частые вопросы

Можно ли использовать Пирсона для категориальных данных (например,"да/нет")?

Нет. Пирсон требует непрерывных числовых данных. Для категориальных переменных используйте:

  • Коэффициент фи (для дихотомических данных 2×2);
  • Коэффициент Крамера (для таблиц сопряжённости больше 2×2).

В Excel их можно рассчитать через формулы массива или надстройку Real Statistics Resource Pack.

Что делать, если Пирсон показывает 0.9, а Спирмен — 0.4?

Такая разница говорит о:

  1. Наличии выбросов, искажающих Пирсона;
  2. Нелинейной зависимости (например, параболической);
  3. Несоответствии данных нормальному распределению.

Решение: постройте график рассеяния и проверьте распределение. В 90% случаев доверяйте Спирмену.

Как проверить статистическую значимость корреляции?

Для Пирсона и Спирмена значимость проверяется через p-value. В Excel:

  1. Рассчитайте коэффициент (=КОРРЕЛ или =КОРРЕЛ.СПИРМЕН).
  2. Найдите p-value с помощью функции:
    =ТЕСТ.ЗНАЧ(абс(коэффициент)*КОРЕНЬ(n-2)/КОРЕНЬ(1-коэффициент^2); n-2; 2)

    где n — количество наблюдений.

  3. Если p-value < 0.05, корреляция значима.
Можно ли сравнивать коэффициенты Пирсона и Спирмена между собой?

Нет. Это разные шкалы измерения:

  • Пирсон оценивает линейную зависимость;
  • Спирмен — монотонную (включая нелинейную).

Сравнивать их напрямую — как сравнивать метры и килограммы. Используйте тот коэффициент, который соответствует типу ваших данных.

Как рассчитать корреляцию для более чем двух переменных?

Используйте корреляционную матрицу:

  1. Активируйте Пакет анализа (Файл → Параметры → Надстройки).
  2. Выберите Данные → Анализ данных → Корреляция.
  3. Укажите входной диапазон (все столбцы с переменными) и выделенную ячейку для вывода.

Матрица покажет парные коэффициенты Пирсона для всех комбинаций. Для Спирмена потребуется VBA или надстройка Real Statistics.