Как рассчитать коэффициент корреляции Пирсона в Excel: формулы, примеры и лайфхаки

Коэффициент корреляции Пирсона — это статистический показатель, который измеряет силу и направление линейной зависимости между двумя переменными. Его значения варьируются от -1 до 1: отрицательное число указывает на обратную связь, положительное — на прямую, а ноль означает отсутствие линейной зависимости. В Microsoft Excel этот коэффициент можно вычислить несколькими способами, и сегодня мы разберём их все — от ручного ввода формулы до использования встроенных функций.

Многие пользователи ошибочно считают, что для расчёта Пирсона нужны глубокие знания статистики или специализированное ПО вроде SPSS или R. На самом деле, Excel справляется с этой задачей не хуже, причём даже в базовых версиях (начиная с 2010 года). Главное — правильно подготовить данные и избежать типичных ошибок, о которых мы тоже расскажем.

Что такое коэффициент Пирсона и зачем он нужен

Коэффициент корреляции Пирсона (обозначается как r) оценивает линейную зависимость между двумя количественными переменными. Например, он поможет определить:

  • 📈 Связаны ли расходы на рекламу с объёмом продаж?
  • 📊 Влияет ли время, проведённое на сайте, на конверсию?
  • 🎓 Есть ли зависимость между количеством часов учёбы и экзаменационными баллами?

Формула коэффициента Пирсона выглядит так:

r = Cov(X, Y) / (σX × σY), где:

  • Cov(X, Y) — ковариация переменных X и Y;
  • σX и σY — стандартные отклонения X и Y соответственно.

Вручную считать эту формулу неудобно, особенно при большом объёме данных. К счастью, Excel автоматизирует процесс.

📊 Для чего вы чаще всего используете коэффициент Пирсона?
Анализ продаж
Научные исследования
Финансовое моделирование
Обучение/студенческие работы
Другое

Подготовка данных для расчёта Пирсона в Excel

Перед тем как приступить к вычислениям, убедитесь, что ваши данные соответствуют трём ключевым требованиям:

  1. Парные наблюдения: у вас должно быть две колонки с одинаковым количеством строк (например, Рекламный бюджет и Продажи).
  2. Количественные переменные: Пирсон работает только с числовыми данными (не подходит для категориальных переменных вроде "да/нет").
  3. Отсутствие пропусков: пустые ячейки приведут к ошибке #Н/Д. Замените их на ноль или удалите строки.

Пример правильной таблицы:

Рекламный бюджет (тыс. руб.) Продажи (шт.)
10150
20280
15200
25350
30400
⚠️ Внимание: Если в ваших данных есть выбросы (например, значение 1000 при среднем 50), коэффициент Пирсона может исказиться. Перед расчётом проверьте данные на аномалии с помощью диаграммы рассеивания (Вставка → Диаграмма → Точечная).

Способ 1: Функция КОРРЕЛ (PEARSON в английской версии)

Самый простой метод — использовать встроенную функцию =КОРРЕЛ() (или =PEARSON() в англоязычных версиях). Она доступна во всех редакциях Excel начиная с 2010 года.

Алгоритм действий:

  1. Выделите ячейку, где будет результат (например, D2).
  2. Введите формулу:
    =КОРРЕЛ(массив_X; массив_Y)

    где массив_X и массив_Y — диапазоны ячеек с данными.

  3. Для нашего примера формула примет вид:
    =КОРРЕЛ(A2:A6; B2:B6)
  4. Нажмите Enter.

Результат появится в выбранной ячейке. В нашем случае он будет близок к 0.99, что указывает на сильную положительную корреляцию.

Убедитесь, что диапазоны одинакового размера|Проверьте отсутствие текста в ячейках|Удалите пустые строки|Сравните количество строк в обоих массивах-->

Способ 2: Ручное вычисление через ковариацию и стандартные отклонения

Если вам нужно понять, как считается коэффициент Пирсона (например, для учебных целей), можно воспользоваться поэтапным расчётом:

  1. Найдите средние значения для каждой переменной:
    =СРЗНАЧ(A2:A6)  // для X
    

    =СРЗНАЧ(B2:B6) // для Y

  2. Посчитайте ковариацию:
    =КОВАРИАЦИЯ.В(A2:A6; B2:B6)

    (в старых версиях Excel используйте =КОВАР()).

  3. Вычислите стандартные отклонения:
    =СТАНДОТКЛОН.В(A2:A6)  // для X
    

    =СТАНДОТКЛОН.В(B2:B6) // для Y

  4. Разделите ковариацию на произведение стандартных отклонений:
    =КОВАРИАЦИЯ.В(A2:A6; B2:B6) / (СТАНДОТКЛОН.В(A2:A6) * СТАНДОТКЛОН.В(B2:B6))

Этот метод даст тот же результат, что и функция КОРРЕЛ, но потребует больше действий. Он полезен, если вам нужно понимать математику за коэффициентом Пирсона, а не просто получить число.

⚠️ Внимание: В Excel 2010 и старше функции КОВАР() и СТАНДОТКЛОН() считают выборку как генеральную совокупность. Для выборочных данных используйте КОВАРИАЦИЯ.В() и СТАНДОТКЛОН.В().

Способ 3: Анализ данных через надстройку «Пакет анализа»

Если вам нужно не только посчитать коэффициент Пирсона, но и получить развёрнутую статистику (например, для отчёта), используйте надстройку «Пакет анализа» (Analysis ToolPak).

Инструкция:

  1. Активируйте надстройку:
    • Перейдите в Файл → Параметры → Надстройки.
    • Внизу окна выберите Управление: Надстройки Excel → Перейти.
    • Отметьте Пакет анализа и нажмите OK.
  • Запустите анализ:
    • Перейдите на вкладку Данные → Анализ данных.
    • Выберите Корреляция и нажмите OK.
    • Укажите Входной интервал (обе колонки с данными) и Выходной интервал (например, $D$1).

    В результате вы получите корреляционную матрицу, где на пересечении столбцов будет коэффициент Пирсона (в нашем случае — 0.99 между Рекламный бюджет и Продажи).

    Типичные ошибки и как их избежать

    Даже опытные пользователи Excel иногда сталкиваются с проблемами при расчёте Пирсона. Вот самые распространённые:

    • 🔢 Ошибка #Н/Д: возникает, если диапазоны разного размера или содержат текст. Проверьте количество строк и формат ячеек.
    • 📉 Неправильная интерпретация: Пирсон показывает только линейную зависимость. Если связь нелинейная (например, параболическая), коэффициент может быть близок к нулю, хотя зависимость есть.
    • 🔄 Путаница с направлением: положительный r не всегда означает причинно-следственную связь. Например, корреляция между продажами мороженого и количеством утоплений не говорит о том, что одно вызывает другое (оба зависят от температуры воздуха).

    Чтобы избежать ошибок:

    1. Всегда стройте диаграмму рассеивания (Вставка → Диаграмма → Точечная) перед расчётом.
    2. Проверяйте данные на нормальность распределения (например, через гистограмму). Пирсон чувствителен к выбросам.
    3. Для категориальных данных используйте другие методы (например, коэффициент Спирмена).
    Что делать, если Пирсон показывает 0, но зависимость очевидна?

    Это может означать, что связь между переменными нелинейная. Попробуйте:

    1. Построить график и проверить форму зависимости (например, логарифмическую или экспоненциальную).

    2. Применить нелинейную регрессию (Данные → Анализ данных → Регрессия).

    3. Использовать коэффициент ранговой корреляции Спирмена (=КОРРЕЛ.СПИРМЕН() в новых версиях Excel).

    Практический пример: Анализ продаж и рекламного бюджета

    Давайте разберём реальный кейс. Предположим, у вас есть данные о расходах на рекламу и продажах за 6 месяцев:

    Месяц Рекламный бюджет (тыс. руб.) Продажи (шт.)
    Январь10150
    Февраль15200
    Март20280
    Апрель25350
    Май30400
    Июнь35450

    Шаги анализа:

    1. Введите данные в Excel (столбцы B и C).
    2. Посчитайте коэффициент Пирсона:
      =КОРРЕЛ(B2:B7; C2:C7)

      Результат: 0.997 (почти идеальная корреляция).

    3. Постройте диаграмму рассеивания:
      • Выделите данные (B2:C7).
      • Перейдите на вкладку Вставка → Диаграмма → Точечная.
  • Вывод: с вероятностью 99% увеличение рекламного бюджета ведёт к росту продаж. Однако это не означает, что только реклама влияет на продажи — возможны другие факторы (сезонность, акции и т. д.).

    Когда использовать Пирсона, а когда — другие коэффициенты

    Коэффициент Пирсона — не универсальный инструмент. Вот когда стоит выбрать альтернативы:

    Ситуация Рекомендуемый коэффициент Функция в Excel
    Данные нелинейны (например, парабола) Коэффициент детерминации (R²) =RSQ() или через регрессию
    Переменные категориальные (ранги) Спирмен или Кендалл =КОРРЕЛ.СПИРМЕН() (в Excel 2016+)
    Данные имеют выбросы Усечённый Пирсон или Спирмен Ручной расчёт или надстройки
    Нужно оценить нелинейную зависимость Индекс корреляции Через регрессионный анализ

    Если вы не уверены, какой коэффициент использовать, начните с диаграммы рассеивания. Она визуально покажет характер зависимости:

    • 📈 Прямая линия → Пирсон.
    • 🔄 Кривая → Нелинейная регрессия.
    • 🎯 Разбросанные точки безpatterns → Корреляция отсутствует.

    FAQ: Частые вопросы о коэффициенте Пирсона в Excel

    Можно ли считать Пирсона для более чем двух переменных?

    Да, но не через функцию КОРРЕЛ. Используйте корреляционную матрицу из «Пакета анализа» (Данные → Анализ данных → Корреляция). Она покажет коэффициенты для всех пар переменных.

    Что делать, если коэффициент Пирсона равен 0, но на графике видна зависимость?

    Это означает, что зависимость нелинейная. Попробуйте:

    1. Применить логарифмическое или экспоненциальное преобразование данных.
    2. Использовать полиномиальную регрессию (Данные → Анализ данных → Регрессия).
    Как интерпретировать значения коэффициента Пирсона?

    Общее правило:

    • 0.9–1.0 или -0.9–(-1.0): очень сильная корреляция.
    • 0.7–0.9 или -0.7–(-0.9): сильная.
    • 0.5–0.7 или -0.5–(-0.7): умеренная.
    • 0.3–0.5 или -0.3–(-0.5): слабая.
    • 0–0.3: отсутствует или очень слабая.

    Однако пороговые значения зависят от предметной области. Например, в социологии корреляция 0.5 считается высокой, а в физике — низкой.

    Почему в Excel и SPSS результаты Пирсона отличаются?

    Разница может возникнуть из-за:

    • Разных методов обработки пропусков (Excel игнорирует пустые ячейки, а SPSS может исключать всю строку).
    • Округления (Excel по умолчанию показывает 2 знака после запятой).
    • Разных формул для выборочной и генеральной совокупности (проверьте, используете ли вы КОВАРИАЦИЯ.В или КОВАРИАЦИЯ.Г).
    Можно ли автоматизировать расчёт Пирсона для больших данных?

    Да! Вот несколько способов:

    • Используйте Power Query для предварительной обработки данных.
    • Напишите макрос на VBA, который будет считать корреляцию для выделенного диапазона.
    • Примените динамические массивы (в Excel 365), чтобы автоматически обновлять результаты при изменении данных.