Корреляция Пирсона в Excel: формула, расчёт и интерпретация результатов

Коэффициент корреляции Пирсона — это статистический показатель, который измеряет силу и направление линейной связи между двумя переменными. Его значения варьируются от -1 (полная отрицательная корреляция) до +1 (полная положительная корреляция), где 0 означает отсутствие линейной зависимости. В Microsoft Excel этот коэффициент можно рассчитать несколькими способами: через встроенную функцию, инструмент анализа данных или даже вручную по формуле.

Многие пользователи ошибочно полагают, что для работы с корреляцией нужны специализированные программы вроде SPSS или R. На деле же Excel справляется с задачей не хуже — главное знать правильные инструменты и избегать типичных ошибок. В этой статье мы разберём 3 метода расчёта, покажем, как интерпретировать результаты, и предостережём от распространённых ловушек.

Если вам нужно быстро проверить гипотезу о связи между двумя наборами данных (например, между рекламными расходами и продажами, температурой и спросом на мороженое), корреляция Пирсона станет вашим первым помощником. Но важно помнить: этот метод работает только для линейных зависимостей и чувствителен к выбросам. Прежде чем приступать к расчётам, убедитесь, что ваши данные соответствуют требованиям.

📊 Для чего вам нужна корреляция Пирсона?
Для анализа бизнес-показателей
Для научной работы
Для учебного проекта
Для личных расчётов
Другое

Что такое корреляция Пирсона и когда её использовать

Коэффициент корреляции Пирсона (r) оценивает, насколько сильно две переменные связаны между собой линейно. Например, если при увеличении одной переменной другая растёт пропорционально (как рост и вес у детей), коэффициент будет близок к +1. Если же рост одной переменной сопровождается падением другой (как цена и спрос на товар), значение приблизится к -1.

Формула коэффициента Пирсона выглядит так:

r = Cov(X, Y) / (σₓ * σᵧ)

где:

- Cov(X, Y) — ковариация переменных X и Y,

- σₓ и σᵧ — стандартные отклонения X и Y соответственно.

Когда применять этот метод?

  • 📊 Вам нужно подтвердить или опровергнуть линейную зависимость между двумя количественными переменными.
  • 🔍 Данные распределены нормально (или близко к нормальному распределению).
  • 📈 Переменные измерены в интервальной или относительной шкале (например, температура, доход, время).

А когда нельзя использовать Пирсона?

  • 🚫 Для нелинейных зависимостей (например, параболических). В этом случае подойдёт коэффициент Спирмена.
  • 🚫 Если данные имеют выбросы или асимметричное распределение.
  • 🚫 Для категориальных переменных (например, пол, цвет глаз). Здесь нужны другие методы, например, хи-квадрат.

Метод 1: Функция КОРРЕЛ в Excel

Самый простой способ — использовать встроенную функцию КОРРЕЛ (или PEARSON в английской версии). Она доступна во всех версиях Excel, начиная с 2007 года.

Шаги для расчёта:

  1. Подготовьте данные: разместите две переменные в соседних столбцах (например, A2:A10 и B2:B10).
  2. Выделите ячейку, где будет результат (например, D2).
  3. Введите формулу:
    =КОРРЕЛ(A2:A10; B2:B10)

    или для английской версии:

    =PEARSON(A2:A10, B2:B10)
  4. Нажмите Enter — готово!

Пример расчёта для данных о расходах на рекламу и продажах:

Рекламный бюджет (тыс. руб.) Продажи (ед.)
10150
15200
20220
25250
30300

Формула =КОРРЕЛ(A2:A6; B2:B6) вернёт значение ~0.99, что говорит о сильной положительной корреляции.

Убедитесь, что в данных нет пустых ячеек|Проверьте, что оба диапазона имеют одинаковое количество значений|Удалите выбросы (значения, сильно отличающиеся от остальных)|Сохраните исходные данные на отдельном листе-->

Метод 2: Инструмент «Анализ данных» (Data Analysis Toolpak)

Если вам нужно рассчитать корреляцию для нескольких пар переменных или получить полную матрицу корреляций, удобнее использовать надстройку «Пакета анализа» (Data Analysis Toolpak). Она доступна в Excel 2010–2019 и Microsoft 365, но по умолчанию отключена.

Как включить и использовать:

  1. Активируйте надстройку:
    • Перейдите в Файл → Параметры → Надстройки.
    • Внизу выберите Управление: Надстройки Excel → Перейти.
    • Отметьте Пакет анализа и нажмите OK.
  2. Запустите инструмент:
    • Перейдите на вкладку Данные → Анализ данных.
    • Выберите Корреляция и нажмите OK.
  • Задайте параметры:
    • В поле Входной интервал укажите диапазон с данными (например, A1:B6).
    • Отметьте Метки в первой строке, если у вас есть заголовки.
    • Выберите выходной диапазон (например, D1).
    • Результат — матрица корреляций, где на пересечении строк и столбцов указаны коэффициенты. Например:

      Реклама Продажи
      Реклама10.99
      Продажи0.991

      Важно: если у вас более двух переменных, матрица покажет корреляцию между всеми парами. Например, для трёх столбцов (X, Y, Z) вы получите 9 значений (включая единицы на диагонали).

      Что делать, если нет надстройки "Анализ данных"?

      В Excel для Mac или некоторых корпоративных версиях этот инструмент может отсутствовать. Альтернатива — использовать функцию КОРРЕЛ для каждой пары переменных или установить надстройку Analysis ToolPak VBA (доступна на сайте Microsoft).

      Метод 3: Ручной расчёт по формуле

      Если вам нужно понять математику за коэффициентом Пирсона или проверить результат Excel, можно рассчитать его вручную. Для этого потребуется:

      1. Найти средние значения (СРЗНАЧ) для X и Y.
      2. Вычислить отклонения каждого значения от среднего.
      3. Перемножить отклонения и просуммировать (СУММПРОИЗВ).
      4. Найти стандартные отклонения (СТАНДОТКЛОН.В).
      5. Разделить ковариацию на произведение стандартных отклонений.

    Пример на данных из таблицы выше:

    
    

    Среднее X (реклама) = СРЗНАЧ(A2:A6) → 20

    Среднее Y (продажи) = СРЗНАЧ(B2:B6) → 224

    Ковариация = СУММПРОИЗВ((A2:A6-СРЗНАЧ(A2:A6)); (B2:B6-СРЗНАЧ(B2:B6))) / 4 → 250

    Стандартное отклонение X = СТАНДОТКЛОН.В(A2:A6) → ~7.91

    Стандартное отклонение Y = СТАНДОТКЛОН.В(B2:B6) → ~56.12

    r = 250 / (7.91 * 56.12) ≈ 0.99

    Этот метод трудоёмкий, но полезен для понимания сути расчётов. Для больших массивов данных (более 100 строк) лучше использовать функцию КОРРЕЛ или Пакет анализа.

    Типичные ошибки и как их избежать

    Даже опытные пользователи Excel иногда получают некорректные результаты при расчёте корреляции. Вот самые распространённые ошибки:

    ⚠️ Внимание: Если функция КОРРЕЛ возвращает #Н/Д, проверьте, одинаково ли количество значений в обоих диапазонах. Например, =КОРРЕЛ(A2:A10; B2:B9) выдаст ошибку, так как во втором столбце на одну строку меньше.

    Чек-лист для проверки:

    • 🔍 Пустые ячейки: Удалите или заполните пропуски (даже одна пустая ячейка сбивает расчёт).
    • 📏 Разный размер выборок: Диапазоны A2:A10 и B2:B10 должны совпадать по количеству строк.
    • 📉 Выбросы: Одно крайнее значение (например, 1000 вместо 100) может исказить результат. Используйте УДАЛИТЬ ДУБЛИКАТЫ или фильтры.
    • 🔢 Нечисловые данные: Текст или символы (например, "$100" вместо "100") приводят к ошибке #ЗНАЧ!.

    Ещё одна ловушка — ложная корреляция. Например, если вы анализируете связь между количеством пожаров и продажами мороженого, вы можете получить высокий коэффициент, хотя на самом деле обе переменные зависят от третьего фактора (температуры воздуха). Всегда думайте о причинно-следственных связях!

    Ошибка Причина Решение
    #Н/ДРазное количество данныхВыровняйте диапазоны
    #ДЕЛ/0!Стандартное отклонение = 0Проверьте данные на константы
    #ЗНАЧ!Текст или символы в ячейкахИспользуйте ЗНАЧЕН или очистите данные

    Интерпретация результатов: что означает ваш коэффициент

    Получив значение r, важно правильно его интерпретировать. Вот общепринятая шкала для оценки силы связи:

    • 🔴 |r| = 0.9–1.0: Очень сильная корреляция.
    • 🟠 |r| = 0.7–0.9: Сильная корреляция.
    • 🟡 |r| = 0.5–0.7: Умеренная корреляция.
    • 🟢 |r| = 0.3–0.5: Слабая корреляция.
    • |r| < 0.3: Практически отсутствует связь.

    Обратите внимание на знак коэффициента:

    - r > 0: переменные растут/падают синхронно.

    - r < 0: при росте одной переменной другая уменьшается.

    Но не забывайте: корреляция не равна причинности! Например, если вы обнаружили связь между количеством чашек кофе, выпитых сотрудниками, и их продуктивностью (r = 0.8), это не означает, что кофе вызывает рост эффективности. Возможно, продуктивные люди просто пьют больше кофе.

    ⚠️ Внимание: Для небольших выборок (менее 30 наблюдений) даже высокий коэффициент (r = 0.8) может быть статистически незначимым. Проверьте значимость с помощью t-критерия Стьюдента или функции ТЕСТ.СТЬЮДЕНТА в Excel.

    Продвинутые советы: автоматизация и визуализация

    Если вам часто приходится работать с корреляциями, автоматизируйте процесс:

    • 📊 Динамические диаграммы: Создайте точечную диаграмму и добавьте линию тренда (Добавить элемент диаграммы → Линия тренда). Наклон линии визуально подтвердит направление связи.
    • 🤖 Макросы: Запишите макрос для автоматического расчёта корреляционной матрицы. Пример кода:
      Sub CorrelationMatrix()
      

      Range("D1").Select

      Application.Run "ATPVBAEN.XLAM!Correl", ActiveSheet.Range("$A$1:$C$10"), True

      End Sub

    • 🔄 Power Query: Импортируйте данные из внешних источников и рассчитывайте корреляцию в Power BI или Excel без формул.
    • Для больших данных (более 1000 строк) используйте сводные таблицы:

      1. Создайте сводную таблицу (Вставка → Сводная таблица).
      2. Перетащите обе переменные в область Значения.
      3. Добавьте вычисляемое поле с формулой корреляции.

      Критическая деталь: при работе с большими массивами функция КОРРЕЛ может тормозить. В этом случае разбейте данные на части или используйте Python с библиотекой pandas (коэффициент Пирсона там рассчитывается командой df.corr()).

      FAQ: Частые вопросы о корреляции Пирсона в Excel

      Можно ли рассчитать корреляцию для трёх и более переменных?

      Да, но функция КОРРЕЛ работает только с двумя диапазонами. Для нескольких переменных используйте Пакет анализа (он выдаст полную матрицу корреляций) или создайте таблицу с попарными расчётами.

      Почему мой коэффициент корреляции отличается от результата в SPSS?

      Разница может возникнуть из-за:

      • Разных методов обработки пропусков (SPSS по умолчанию исключает пары с пропусками).
      • Округления (в Excel по умолчанию 15 знаков после запятой, в SPSS — 8).
      • Выбросов (проверьте данные на аномалии).

      Чтобы свести погрешности к минимуму, используйте одинаковые настройки округления и обработки пропусков.

      Как проверить значимость корреляции?

      Для проверки значимости используйте t-критерий:

      1. Рассчитайте t = r * √((n-2)/(1-r²)), где n — количество наблюдений.
      2. Сравните с критическим значением из таблицы Стьюдента для заданного уровня значимости (обычно 0.05) и степеней свободы n-2.

      В Excel это можно сделать с помощью функции:

      =ТЕСТ.СТЬЮДЕНТА(массив_X; массив_Y; 2; 2)

      Что делать, если данные нелинейны?

      Коэффициент Пирсона оценивает только линейные зависимости. Для нелинейных связей:

      • Используйте коэффициент Спирмена (=КОРРЕЛ.СПИРМЕНА в надстройке Real Statistics Resource Pack).
      • Постройте полиномиальную линию тренда на диаграмме рассеяния.
      • Примените непараметрические тесты (например, кендалловский тау).
      Можно ли рассчитать корреляцию в Google Sheets?

      Да, в Google Таблицах есть аналогичная функция:

      =CORREL(A2:A10; B2:B10)

      Также доступен Пакет анализа через надстройку Analysis ToolPak for Google Sheets (устанавливается из магазина дополнений).