Корреляция в Excel: 5 способов расчёта с примерами и формулами

Корреляция — это статистический показатель, который помогает понять, насколько сильно связаны между собой два набора данных. В Microsoft Excel рассчитать корреляцию можно несколькими способами: от простых встроенных функций до продвинутых инструментов анализа данных. Но почему это важно? Представьте, что вы анализируете зависимость между рекламным бюджетом и продажами, или пытаетесь выяснить, влияет ли температура воздуха на посещаемость кафе. Без корреляционного анализа такие выводы будут субъективными.

Многие пользователи ошибочно считают, что высокая корреляция автоматически означает причинно-следственную связь. Это не так: корреляция показывает лишь степень взаимосвязи, но не её причину. Например, может существовать сильная корреляция между количеством проданных мороженых и числом утоплений, но это не значит, что одно вызывает другое — просто оба показателя растут в жаркую погоду. В этой статье мы разберём 5 практических методов расчёта корреляции в Excel, от базовых функций до автоматизированного анализа, а также научимся интерпретировать результаты.

1. Что такое корреляция и какие её виды бывают

Корреляция измеряет силу и направление линейной связи между двумя переменными. Её значение всегда находится в диапазоне от -1 до 1:

  • 🔹 1 — идеальная положительная корреляция (при росте одной переменной вторая растёт пропорционально).
  • 🔹 0 — отсутствие линейной связи.
  • 🔹 -1 — идеальная отрицательная корреляция (рост одной переменной ведёт к уменьшению другой).

В Excel чаще всего используют корреляцию Пирсона (для линейных зависимостей) и корреляцию Спирмена (для нелинейных или ранговых данных). Первый тип подходит для нормально распределённых данных, второй — для данных с выбросами или нестандартными распределениями. Например, если вы анализируете зависимость между ростом и весом, подойдёт Пирсон. А если сравниваете рейтинги фильмов от разных критиков — Спирмен.

Важно понимать, что корреляция не равна регрессии. Регрессия помогает предсказать значение одной переменной на основе другой (например, прогнозировать продажи по рекламному бюджету), тогда как корреляция лишь оценивает силу связи. В Excel для регрессии используется инструмент Регрессия из пакета Анализ данных, но это тема для отдельной статьи.

⚠️ Внимание: Корреляция чувствительна к выбросам. Один аномальный показатель (например, ошибка в данных) может исказить результат. Всегда проверяйте данные на аномалии перед анализом.

2. Способ 1: Функция CORREL (корреляция Пирсона)

Самый простой способ рассчитать корреляцию — использовать встроенную функцию CORREL (или КОРРЕЛ в русской версии Excel). Она вычисляет коэффициент корреляции Пирсона между двумя массивами данных. Синтаксис:

=CORREL(массив1; массив2)

Пример: предположим, у вас в столбце A — данные о рекламных расходах (в рублях), а в столбце B — данные о продажах (в штуках). Чтобы найти корреляцию, введите:

=CORREL(A2:A10; B2:B10)

Если результат близок к 0.8, это указывает на сильную положительную связь: увеличение рекламного бюджета ведёт к росту продаж. Отрицательное значение (например, -0.6) означает обратную зависимость.

Убедитесь, что массивы имеют одинаковое количество значений

Проверьте данные на наличие текстовых ячеек или ошибок (#N/A, #VALUE!)

Исключите пустые строки или столбцы

Удалите выбросы (например, значения, выходящие за 3 сигмы от среднего)-->

Функция CORREL работает только с числовыми данными. Если в массиве есть текст или логические значения (ИСТИНА/ЛОЖЬ), Excel вернёт ошибку #N/A. Чтобы избежать этого, используйте функцию ЕСЛИОШИБКА:

=ЕСЛИОШИБКА(CORREL(A2:A10; B2:B10); "Ошибка в данных")
⚠️ Внимание: Если один из массивов содержит константу (например, все значения одинаковые), CORREL вернёт ошибку #ДЕЛ/0!, так как стандартное отклонение будет равно нулю.

3. Способ 2: Функция PEARSON (альтернатива CORREL)

Функция PEARSON (или ПИРСОН в русской версии) — это полный аналог CORREL. Она также рассчитывает линейную корреляцию Пирсона, и её синтаксис идентичен:

=PEARSON(массив1; массив2)

Разница между CORREL и PEARSON лишь в названии — обе функции используют одну и ту же математическую формулу. Например, для тех же данных о рекламе и продажах:

=PEARSON(A2:A10; B2:B10)

Результат будет точно таким же, как и у CORREL. Так почему же в Excel есть две одинаковые функции? Это наследие разных версий программы: PEARSON появилась раньше и сохранена для совместимости, а CORREL — более современный вариант.

CORREL

PEARSON

Не знаю разницы

Использую другой метод-->

Если вы работаете с большими массивами данных (тысячи строк), обе функции могут замедлять расчёты. В этом случае лучше использовать массивные формулы или инструмент Анализ данных (о нём расскажем далее).

4. Способ 3: Корреляционная матрица через «Анализ данных»

Если вам нужно рассчитать корреляцию между несколькими переменными одновременно (например, между рекламой, ценой и продажами), удобнее использовать инструмент Анализ данных. Он позволяет построить корреляционную матрицу — таблицу, где показаны коэффициенты корреляции между всеми парами переменных.

Пошаговая инструкция:

  1. Перейдите в Файл → Параметры → Надстройки.
  2. Внизу окна выберите Управление: Надстройки Excel и нажмите Перейти.
  3. Отметьте галочкой Пакет анализа и нажмите OK.
  4. Теперь в меню Данные появится кнопка Анализ данных. Нажмите её.
  5. Выберите Корреляция и укажите входной интервал (например, A1:C10 для трёх переменных).
  6. Отметьте Метки в первой строке, если у вас есть заголовки столбцов.
  7. Укажите, куда вывести результат (например, на новый лист).

В результате вы получите таблицу, где на пересечении строк и столбцов указаны коэффициенты корреляции. Например:

РекламаЦенаПродажи
Реклама1-0.30.85
Цена-0.31-0.7
Продажи0.85-0.71

Из этой матрицы видно, что:

  • 📈 Реклама и продажи имеют сильную положительную корреляцию (0.85).
  • 📉 Цена и продажи — сильную отрицательную (-0.7).
  • 🔄 Реклама и цена слабо связаны (-0.3).
⚠️ Внимание: Инструмент Анализ данных доступен только в десктопной версии Excel. В Excel Online или мобильной версии его нет.

5. Способ 4: Корреляция Спирмена для нелинейных данных

Если ваши данные нелинейны, содержат выбросы или представляют собой ранги (например, места в соревнованиях), обычная корреляция Пирсона может дать неверные результаты. В этом случае используйте корреляцию Спирмена, которая оценивает связь между рангами значений, а не их абсолютными величинами.

В Excel нет встроенной функции для Спирмена, но её можно рассчитать вручную:

  1. Проранжируйте значения в каждом столбце (наименьшему значению присвойте ранг 1, следующему — 2 и т. д.).
  2. Найдите разницу рангов для каждой пары значений (d).
  3. Возведите разницы в квадрат () и просуммируйте их.
  4. Используйте формулу:
    1 - (6  Σd²) / (n  (n² - 1))

    где n — количество пар.

Пример: предположим, у вас есть данные о предпочтениях двух экспертов (столбцы A и B). Сначала проранжируйте значения в каждом столбце, затем рассчитайте и примените формулу.

Формула Спирмена в Excel

Если вам лень ранжировать вручную, используйте эту формулу массива (введите через Ctrl+Shift+Enter):

=1-6*СУММКВРАЗН(RANK(A2:A10;A2:A10);RANK(B2:B10;B2:B10))/(СЧЁТ(A2:A10)*(СЧЁТ(A2:A10)^2-1))

Корреляция Спирмена всегда даёт результат от -1 до 1, как и Пирсон, но она более устойчива к выбросам. Например, если в данных есть одно аномально большое значение, Пирсон может показать слабую корреляцию, а Спирмен — сильную.

6. Способ 5: Визуализация корреляции с помощью диаграмм

Числовые значения корреляции не всегда интуитивно понятны. Чтобы лучше оценить связь между переменными, постройте точечную диаграмму (Вставка → Диаграмма → Точечная).

Пример: выделите данные о рекламе (столбец A) и продажах (столбец B), затем создайте точечную диаграмму. Если точки на графике образуют восходящую линию, корреляция положительная. Если нисходящую — отрицательная. Если точки разбросаны хаотично — корреляции нет.

Чтобы добавить линию тренда (она поможет визуально оценить силу связи):

  1. Щёлкните правой кнопкой по любой точке на диаграмме.
  2. Выберите Добавить линию тренда.
  3. В настройках линии тренда отметьте Показать уравнение на диаграмме и Показать величину достоверности аппроксимации (R²).

Коэффициент R² (коэффициент детерминации) показывает, какой процент вариации одной переменной объясняется другой. Например, R² = 0.7 означает, что 70% изменчивости продаж объясняется рекламными расходами.

7. Распространённые ошибки и как их избежать

Даже опытные пользователи Excel иногда допускают ошибки при расчёте корреляции. Вот самые частые из них:

  • 🚫 Игнорирование выбросов. Один аномальный показатель может исказить результат. Всегда проверяйте данные на выбросы с помощью функции =СТАНДОТКЛОН() или диаграммы рассеяния.
  • 🚫 Сравнение несопоставимых данных. Например, корреляция между ростом в сантиметрах и весом в килограммах бессмысленна без нормализации.
  • 🚫 Использование Пирсона для нелинейных данных. Если связь между переменными нелинейная (например, параболическая), Пирсон покажет слабую корреляцию, хотя зависимость есть.
  • 🚫 Недостаточный объём данных. Корреляция по 5–10 парам значений ненадёжна. Минимальный рекомендуемый объём — 30 пар.

Чтобы проверить данные на нормальность (важно для корреляции Пирсона), используйте гистограмму или тест Шапиро-Уилка (в Excel его можно реализовать через надстройки типа Real Statistics).

Ещё одна типичная ошибка — путать корреляцию и ковариацию. Ковариация (COVAR или КОВАР в Excel) показывает, как две переменные изменяются вместе, но не нормализует результат. Поэтому ковариация может быть любым числом (положительным или отрицательным), тогда как корреляция всегда в пределах [-1; 1].

8. Продвинутые техники: Автоматизация и VBA

Если вам часто приходится рассчитывать корреляцию для больших наборов данных, имеет смысл автоматизировать процесс с помощью VBA. Например, этот макрос рассчитывает корреляционную матрицу для выделенного диапазона:

Sub CorrelationMatrix()

Dim rng As Range, outRng As Range

Set rng = Selection

Set outRng = Application.InputBox("Выберите ячейку для вывода матрицы", Type:=8)

outRng.Resize(rng.Columns.Count, rng.Columns.Count).Value = _

Application.WorksheetFunction.Correl(rng, rng)

End Sub

Чтобы использовать этот макрос:

  1. Нажмите Alt + F11, чтобы открыть редактор VBA.
  2. Вставьте код в новый модуль (Insert → Module).
  3. Выделите данные на листе и запустите макрос (F5).
  4. Укажите ячейку, куда вывести матрицу.

Для анализа больших данных (тысячи строк) также полезно использовать Power Query или Power Pivot. Эти инструменты позволяют агрегировать данные перед расчётом корреляции и работать с несколькими таблицами одновременно.

FAQ: Частые вопросы о корреляции в Excel

Можно ли рассчитать корреляцию для трёх и более переменных?

Да, с помощью корреляционной матрицы (инструмент Анализ данных). Она покажет парные коэффициенты корреляции между всеми переменными. Например, для переменных X, Y и Z матрица будет 3×3.

Что делать, если CORREL возвращает ошибку #N/A?

Ошибка #N/A возникает, если:

  • В данных есть текст или логические значения.
  • Массивы разного размера.
  • Одно из стандартных отклонений равно нулю (все значения в массиве одинаковые).

Проверьте данные на ошибки и убедитесь, что оба массива содержат только числа.

Как интерпретировать значение корреляции 0.4?

Значение 0.4 указывает на слабую положительную корреляцию. Для социальных наук это может считаться умеренной связью, но в точных науках (например, физике) такое значение часто игнорируют как статистически незначимое. Всегда оценивайте корреляцию в контексте:

  • 📊 0.1–0.3 — слабая связь.
  • 📈 0.3–0.5 — умеренная.
  • 🔥 0.5–1.0 — сильная.
Можно ли рассчитать корреляцию в Google Sheets?

Да, в Google Sheets есть функция =CORREL, аналогичная Excel. Также доступен инструмент Анализ данных через надстройку Analysis ToolPak (нужно установить вручную).

Как проверить статистическую значимость корреляции?

Чтобы понять, является ли корреляция статистически значимой (т. е. не случайной), рассчитайте p-value. В Excel это можно сделать с помощью функции:

=T.TEST(массив1; массив2; 2; 2)

Если p-value < 0.05, корреляция значима на уровне 95%. Для более точного анализа используйте t-критерий Стьюдента.