Как найти корреляцию между двумя величинами в Excel: формулы, графики и интерпретация

Корреляционный анализ — один из самых востребованных инструментов статистики, который помогает выявить взаимосвязь между двумя наборами данных. В Microsoft Excel эта задача решается буквально за несколько кликов, но многие пользователи не знают, какие функции использовать и как правильно интерпретировать результаты. Вы можете анализировать зависимость между продажами и рекламным бюджетом, успеваемостью студентов и временем подготовки, или даже между погодными условиями и посещаемостью сайта — возможности безграничны.

В этой статье мы разберём три основных метода поиска корреляции в Excel: с помощью встроенных функций (КОРРЕЛ и ПИРСОН), через инструмент Анализ данных и визуально — с использованием диаграмм рассеяния. Особое внимание уделим распространённым ошибкам, которые искажают результаты, и научимся отличать сильную корреляцию от случайного совпадения.

Если вы никогда раньше не работали с статистикой в Excel, не переживайте: мы начнём с азов и постепенно перейдём к продвинутым техникам. А для опытных пользователей подготовлены лайфхаки по автоматизации анализа и визуализации данных.

Что такое корреляция и зачем её искать в Excel

Корреляция — это статистическая мера, показывающая, насколько сильно две величины связаны между собой. Она варьируется от -1 до +1:

  • 🔴 +1: идеальная положительная корреляция (при росте одной величины вторая растёт пропорционально)
  • 🟢 0: отсутствие корреляции (связи между величинами нет)
  • 🔵 -1: идеальная отрицательная корреляция (рост одной величины ведёт к пропорциональному уменьшению другой)

В бизнес-аналитике корреляцию используют для:

  • 📊 Прогнозирования продаж на основе исторических данных
  • 💰 Оптимизации рекламных бюджетов
  • 📈 Выявления факторов, влияющих на ключевые показатели (KPI)
  • 🔍 Проверки гипотез (например, "влияет ли цена на спрос?")

Важно понимать, что корреляция не равна причинно-следственной связи. Например, может существовать высокая корреляция между количеством проданного мороженого и числом утоплений, но это не значит, что мороженое вызывает утопления. Обе величины зависят от третьего фактора — жаркой погоды.

⚠️ Внимание: Корреляционный анализ работает только с количественными данными. Для категориальных переменных (например, "пол", "цвет") требуются другие методы, такие как тест хи-квадрат.

Подготовка данных: как правильно организовать таблицу

Перед расчётом корреляции необходимо убедиться, что данные структурированы корректно. Вот ключевые требования:

  • 📋 Две переменные должны быть расположены в отдельных столбцах (например, Столбец A — рекламные расходы, Столбец B — продажи)
  • 🔢 Количество строк в обоих столбцах должно совпадать (нет пропущенных значений)
  • 📉 Данные должны быть числовыми (Excel не сможет рассчитать корреляцию для текста или дат)

Пример правильной структуры:

Рекламный бюджет (тыс. руб.)Продажи (шт.)
15120
20150
1090
25180
560

Если в ваших данных есть пропуски, используйте функцию =СРЗНАЧ() для заполнения средними значениями или удалите неполные строки. Для удаления дубликатов воспользуйтесь инструментом Данные → Удалить дубликаты.

⚠️ Внимание: Если в данных есть выбросы (значения, сильно отличающиеся от остальных), они могут исказить результат. Проверьте данные на аномалии с помощью диаграммы рассеяния перед расчётом.
📊 Как часто вы анализируете данные в Excel?
Ежедневно
Несколько раз в неделю
Редко
Никогда

Метод 1: Функция КОРРЕЛ — самый быстрый способ

Функция =КОРРЕЛ() (или =CORREL() в английской версии) — это стандартный инструмент для расчёта коэффициента корреляции Пирсона. Она подходит для большинства задач и работает в Excel всех версий, начиная с 2007 года.

Синтаксис функции:

=КОРРЕЛ(массив1; массив2)

где:

  • массив1 — диапазон ячеек с данными первой переменной
  • массив2 — диапазон ячеек с данными второй переменной

Пример использования для нашей таблицы:

=КОРРЕЛ(A2:A6; B2:B6)

Результат будет числом от -1 до +1. В нашем случае он составит примерно 0.99, что указывает на очень сильную положительную корреляцию между рекламным бюджетом и продажами.

Убедитесь, что диапазоны одинакового размера|

Проверьте отсутствие текста в ячейках|

Удалите пустые строки|

Сохраните оригинальные данные на отдельном листе-->

Если функция возвращает ошибку #Н/Д, вероятные причины:

  • 🔴 Разный размер массивов (например, A2:A6 vs B2:B7)
  • 🔴 В данных есть текст или логические значения (ИСТИНА/ЛОЖЬ)
  • 🔴 Один из массивов содержит менее 2 значений

Метод 2: Пакета анализа — для расширенной статистики

Если вам нужны не только коэффициент корреляции, но и дополнительные статистические показатели (например, ковариация или регрессионный анализ), воспользуйтесь инструментом Анализ данных. Он доступен в Excel 2010 и новее, но по умолчанию отключён.

Чтобы включить Пакет анализа:

  1. Перейдите в Файл → Параметры → Надстройки
  2. Внизу окна выберите Управление: Надстройки Excel и нажмите Перейти...
  3. Отметьте галочкой Пакет анализа и нажмите OK

Теперь инструмент появится в меню Данные → Анализ данных. Выберите Корреляция и укажите:

  • 📌 Входной интервал: диапазон с данными (например, A1:B6)
  • 📌 Группировка: по столбцам
  • 📌 Выходной интервал: ячейка, куда будет выведен результат (например, D1)

Результатом будет корреляционная матрица:

Рекламный бюджетПродажи
Рекламный бюджет10.99
Продажи0.991

Диагональные значения всегда равны 1 (корреляция переменной с самой собой). Нас интересует ячейка на пересечении строки и столбца с разными переменными — в данном случае 0.99.

⚠️ Внимание: Пакет анализа не работает с данными, содержащими более 16 000 строк. Для больших массивов используйте функцию КОРРЕЛ или Power Query.

Метод 3: Диаграмма рассеяния — визуальный анализ

Числовые значения коэффициента корреляции не всегда интуитивно понятны. Диаграмма рассеяния (scatter plot) помогает визуализировать зависимость между переменными и быстро оценить характер связи.

Чтобы построить диаграмму:

  1. Выделите оба столбца с данными (например, A1:B6)
  2. Перейдите на вкладку Вставка → Вставить диаграмму рассеяния (X Y)
  3. Выберите первый вариант (точечная диаграмма без линий)

В результате вы получите график, где:

  • 🔺 Каждая точка — это пара значений (X и Y)
  • 📈 Наклон облака точек показывает направление корреляции:
    • ↗️ Вверх-вправо — положительная корреляция
    • ↘️ Вниз-вправо — отрицательная корреляция
    • 🟰 Хаотичное расположение — корреляция отсутствует

Для наглядности добавьте линию тренда:

  1. Щёлкните правой кнопкой по любой точке на диаграмме
  2. Выберите Добавить линию тренда
  3. В настройках отметьте Показать уравнение на диаграмме и Поместить на диаграмму величину достоверности аппроксимации (R²)

Коэффициент R² (коэффициент детерминации) показывает, какой процент вариации одной переменной объясняется другой. Например, R² = 0.98 означает, что 98% изменчивости продаж объясняется изменениями рекламного бюджета.

Что делать, если точки на графике образуют не линию, а кривую?

Это может указывать на нелинейную зависимость. В таком случае корреляция Пирсона не подходит — используйте ранговую корреляцию Спирмена (функция =КОРРЕЛ.СПИРМЕН() в Excel 2013+).

Распространённые ошибки и как их избежать

Даже опытные пользователи Excel иногда допускают ошибки при анализе корреляции. Вот самые частые из них:

1. Игнорирование выбросов

Одиночные экстремальные значения могут сильно исказить результат. Например, если в данных о продажах есть одна строка с аномально высоким значением (например, 1000 вместо 100-200), корреляция может показаться сильнее, чем есть на самом деле.

Решение:

  • 🔍 Постройте диаграмму рассеяния и визуально проверьте данные на выбросы
  • 📊 Используйте функцию =КВАРТИЛЬ() для определения границ "нормальных" значений

2. Путаница между корреляцией и причинностью

Как упоминалось ранее, корреляция ≠ причинно-следственная связь. Например, может существовать корреляция между количеством пожарных на месте и ущербом от пожара, но это не значит, что пожарные вызывают ущерб — просто на большие пожары приезжает больше пожарных.

3. Использование неподходящего типа корреляции

Коэффициент Пирсона (КОРРЕЛ) работает только для линейных зависимостей и нормально распределённых данных. Если зависимость нелинейная или данные имеют выбросы, используйте:

  • 📉 =КОРРЕЛ.СПИРМЕН() — для ранговой корреляции (непараметрический метод)
  • 📈 =КОРРЕЛ.КЕНДЕЛЛ() — для данных с большим количеством связанных рангов

4. Недостаточный объём данных

Корреляция по 3-5 парам значений ненадёжна. Минимальный рекомендуемый объём — 20-30 наблюдений. Для надёжных выводов лучше иметь 100+ точек данных.

⚠️ Внимание: Если ваш коэффициент корреляции близок к 0, это не всегда означает отсутствие связи. Возможно, зависимость нелинейная или требуется учёт третьей переменной (многомерная корреляция).

Продвинутые техники: автоматизация и скрипты

Если вам регулярно приходится анализировать корреляции между десятками переменных, ручной ввод формул станет утомительным. Вот несколько способов автоматизировать процесс:

1. Корреляционная матрица для нескольких переменных

Предположим, у вас есть данные по 5 переменным (столбцы A:E). Чтобы рассчитать корреляцию между всеми парами:

  1. Выделите пустую область размером 6×6 (например, H1:M6)
  2. Введите формулу массива:
    =КОРРЕЛ(A2:A100;A2:A100)

    и нажмите Ctrl+Shift+Enter

  3. Растяните формулу на весь диапазон H1:M6, изменяя второй аргумент на B2:B100, C2:C100 и т.д.

2. Macro для автоматического расчёта

Если вы работаете с VBA, этот скрипт создаст корреляционную матрицу для всех числовых столбцов на листе:

Sub CorrelationMatrix()

Dim ws As Worksheet

Dim rng As Range, cell As Range

Dim lastCol As Integer, i As Integer, j As Integer

Dim corrValue As Double

Set ws = ActiveSheet

lastCol = ws.Cells(1, ws.Columns.Count).End(xlToLeft).Column

' Создаём заголовки

For i = 1 To lastCol

ws.Cells(1, lastCol + 2 + i).Value = ws.Cells(1, i).Value

ws.Cells(lastCol + 3, i + 1).Value = ws.Cells(1, i).Value

Next i

' Рассчитываем корреляции

For i = 1 To lastCol

For j = 1 To lastCol

corrValue = Application.WorksheetFunction.Correl( _

ws.Range(ws.Cells(2, i), ws.Cells(ws.Rows.Count, i).End(xlUp)), _

ws.Range(ws.Cells(2, j), ws.Cells(ws.Rows.Count, j).End(xlUp)))

ws.Cells(lastCol + 3 + i, j + 1).Value = corrValue

Next j

Next i

End Sub

3. Power Query для обработки больших данных

Если у вас тысячи строк, используйте Power Query:

  1. Выделите данные и нажмите Данные → Из таблицы/диапазона
  2. В Power Query добавьте пользовательский столбец с формулой корреляции
  3. Используйте Table.Pivot для создания сводной матрицы

FAQ: Ответы на частые вопросы

Можно ли рассчитать корреляцию между более чем двумя переменными?

Да, для этого строят корреляционную матрицу, где каждая ячейка показывает корреляцию между парой переменных. В Excel это можно сделать с помощью Пакета анализа или формул массива. Для визуализации используйте тепловую карту (условное форматирование).

Что делать, если корреляция оказалась близка к нулю?

Это может означать:

  • 🔹 Действительно нет связи между переменными
  • 🔹 Связь нелинейная (попробуйте построить график)
  • 🔹 Влияют скрытые факторы (используйте множественную регрессию)
  • 🔹 Недостаточно данных для выявления зависимости

Рекомендуем проверить данные на выбросы и попробовать другие методы анализа (например, кластерный анализ).

Как интерпретировать отрицательную корреляцию?

Отрицательная корреляция означает, что при росте одной переменной другая уменьшается. Примеры:

  • 📉 Чем выше цена на товар, тем ниже спрос (закон спроса)
  • 📉 Чем больше времени тратится на социальные сети, тем ниже продуктивность

Сила связи определяется по модулю коэффициента: -0.8 — сильная отрицательная корреляция, -0.2 — слабая.

Можно ли рассчитать корреляцию в Google Sheets?

Да, в Google Таблицах используется та же функция =CORREL(). Также доступен инструмент Анализ данных через меню Расширения → Анализ данных. Синтаксис и логика работы идентичны Excel.

Какая минимальная выборка нужна для надёжного анализа?

Минимальный рекомендуемый объём — 20-30 наблюдений. Однако:

  • 🔹 Для научных исследований обычно требуется 100+ наблюдений
  • 🔹 При анализе временных рядов (например, ежемесячные данные) достаточно 12-24 точек
  • 🔹 Для A/B-тестирования используйте калькуляторы статистической значимости

Помните: чем больше данных, тем надёжнее результат, но качество важнее количества.