Построение графика функции распределения в Excel: от теории к практике

Введение: зачем нужны графики распределения в Excel

Графики функций распределения — это мощный инструмент визуализации данных, который помогает анализировать вероятностные характеристики наборов значений. В Microsoft Excel их можно построить как для дискретных (например, результаты бросков игрального кубика), так и для непрерывных (рост студентов в группе) данных. Правильно построенная диаграмма позволяет мгновенно оценить центральную тенденцию, разброс значений и даже выявить аномалии в данных.

Студенты, маркетологи, инженеры и аналитики регулярно сталкиваются с задачей визуализации распределений. К примеру, в финансах графики помогают оценить риски портфеля акций, в медицине — распределение показателей здоровья пациентов, а в производстве — вариативность качества продукции. Excel предоставляет все необходимые инструменты для этой задачи, но многие пользователи не знают, как их эффективно комбинировать. Эта статья закрывает этот пробел.

Мы разберём три ключевых подхода: построение гистограмм частот (для дискретных данных), кумулятивных кривых (функций распределения) и плотности вероятности (с использованием надстройки Анализ данных). Каждый метод подходит для своих целей — вы узнаете, когда и как их применять.

Подготовка данных: структурируем исходную таблицу

Прежде чем строить график, необходимо правильно организовать данные. Excel работает с распределениями только тогда, когда исходные значения упорядочены и сгруппированы. Рассмотрим базовые требования:

  • 📊 Необработанные данные — столбец с сырыми значениями (например, рост 50 человек в сантиметрах).
  • 📈 Интервалы (бины) — диапазоны, на которые вы разобьёте данные для гистограммы (например, 160–165 см, 165–170 см и т.д.).
  • 🔢 Частоты — количество значений, попадающих в каждый интервал.
  • 📉 Кумулятивные частоты — накопленные суммы для построения функции распределения.

Пример структуры таблицы:

Рост (см)ИнтервалЧастотаКумулятивная частота
158155–16033
162160–165811
168165–1701526
175170–1751238
180175–180745

Для автоматического расчёта частот используйте функцию ЧАСТОТА (в английской версии — FREQUENCY). Она требует массива данных и массива интервалов. Важно: функция возвращает массив, поэтому её нужно вводить как формулу массива (нажмите Ctrl+Shift+Enter в старых версиях Excel).

⚠️ Внимание: Если ваши данные содержат выбросы (значения, сильно отличающиеся от большинства), их стоит исключить или выделить в отдельный интервал. Например, рост 195 см в группе со средним 170 см исказит всю гистограмму.
📊 Как часто вы визуализируете распределения данных в Excel?
Ежедневно
Раз в неделю
Раз в месяц
Редко
Никогда

Метод 1: Гистограмма частот (для дискретных данных)

Гистограмма — самый простой способ визуализировать распределение. Она показывает, как часто встречаются значения в каждом интервале. В Excel 2016 и новее есть встроенный тип диаграммы "Гистограмма", но мы рассмотрим универсальный метод, работающий во всех версиях.

Шаги для построения:

  1. Выделите столбец с интервалами и столбец с частотами.
  2. Перейдите на вкладку Вставка → Вставить столбчатую или гистограмму → Гистограмма с группировкой.
  3. Уберите зазоры между столбцами: кликните правой кнопкой по любому столбцу → Формат ряда данных → установите Ширина зазора: 0%.
  4. Добавьте подписи данных: выделите столбцы → Макет диаграммы → Подписи данных.

Для наглядности отформатируйте оси:

  • 🔹 Горизонтальная ось (X) — интервалы значений.
  • 🔹 Вертикальная ось (Y) — частоты или относительные частоты (в процентах).

Интервалы не пересекаются и покрывают весь диапазон данных|

Сумма частот равна общему количеству наблюдений|

Подписи осей четко описывают, что изображено|

Цвета столбцов контрастны и различимы при печати-->

⚠️ Внимание: Если ваши данные непрерывные (например, вес с точностью до грамма), гистограмма может получиться слишком "рваной". В этом случае увеличьте ширину интервалов или используйте метод ядерной оценки плотности (см. Метод 3).

Метод 2: График кумулятивной функции распределения (CDF)

Кумулятивная функция распределения (CDF) показывает, какая доля наблюдений попадает в интервал "меньше или равно X". Этот график полезен для оценки перцентилей (например, "какой рост имеют 90% людей в выборке?"). Построим его на основе данных из предыдущего раздела.

Алгоритм действий:

  1. Добавьте столбец с кумулятивными частотами (накопленные суммы частот). Используйте формулу:
    =СУММ($C$2:C2)

    где $C$2 — первая частота, а C2 — текущая ячейка.

  2. Выделите столбцы с верхними границами интервалов (например, 160, 165, 170...) и кумулятивными частотами.
  3. Вставьте Вставка → Точечная диаграмма → Точечная с прямыми отрезками.
  4. Добавьте вспомогательную линию для 50% (медиана) и 90% (дециль): Макет → Линии → Горизонтальная линия.

Пример того, как должен выглядеть график CDF:

Пример графика кумулятивной функции распределения в Excel

Чтобы найти перцентили по графику:

  • 📏 Проведите горизонтальную линию от нужного процента (например, 75%) до пересечения с кривой.
  • 📐 Опустите вертикаль до оси X — это и будет искомое значение (например, рост 172 см для 75-го перцентиля).

Метод 3: График плотности распределения (с надстройкой "Анализ данных")

Для гладких кривых распределения (например, нормального распределения) гистограммы недостаточно. В этом случае используют графики плотности, которые показывают вероятность попадания значения в бесконечно малый интервал. В Excel для этого потребуется надстройка Анализ данных (в английской версии — Data Analysis Toolpak).

Инструкция по активации и использованию:

  1. Включите надстройку: Файл → Параметры → Надстройки → Управление: Надстройки Excel → Перейти → Поставьте галочку "Пакет анализа" → ОК.
  2. Перейдите на вкладку Данные → Анализ данных → Гистограмма.
  3. Задайте:
    • 📌 Входной интервал — диапазон с исходными данными.
    • 📌 Интервал карманов — диапазон с границами интервалов.
    • 📌 Отметьте Вывод графика и Интегральный процент.
  • Нажмите ОК — Excel создаст гистограмму и таблицу с данными для графика плотности.
  • Чтобы преобразовать гистограмму в график плотности:

    • 🔄 Скопируйте данные из столбца "Частота".
    • 📊 Вставьте Вставка → График → График с маркерами.
    • 🎨 Отформатируйте линию, чтобы она стала гладкой (клик правой кнопкой → Формат ряда данных → Сглаживание).

    Что делать, если надстройки "Анализ данных" нет?

    Если в вашей версии Excel нет надстройки (например, в онлайн-версии или Excel для Mac), используйте альтернативный метод:

    1. Постройте гистограмму вручную (Метод 1).

    2. Добавьте линию тренда: кликните по ряду данных → Добавить линию тренда → Полиномиальная, степень 3–4.

    3. Установите прозрачность столбцов на 70–80%, чтобы линия тренда стала основным акцентом.

    Продвинутые техники: комбинированные графики и динамические диапазоны

    Для профессионального анализа часто требуется совмещать несколько типов графиков на одной диаграмме. Например, гистограмму частот и линию кумулятивного распределения. Вот как это сделать:

    Шаги для комбинированной диаграммы:

    1. Постройте гистограмму (Метод 1).
    2. Кликните правой кнопкой по диаграмме → Выбрать данные → Добавить ряд.
    3. Укажите:
      • 📍 Имя ряда — "Кумулятивная частота".
      • 📍 Значения X — верхние границы интервалов.
      • 📍 Значения Y — столбец с кумулятивными частотами.
  • Кликните правой кнопкой по новому ряду → Изменить тип диаграммы → График с маркерами.
  • Добавьте вторую вертикальную ось: кликните по линии → Формат ряда данных → Построить ряд по вспомогательной оси.
  • Для динамических диапазонов используйте именованные диапазоны и функции СМЕЩ (OFFSET). Например, чтобы график автоматически обновлялся при добавлении новых данных:

    =СМЕЩ(Лист1!$A$2;0;0;СЧЁТЗ(Лист1!$A:$A)-1;1)

    Эта формула создаёт диапазон, который всегда включает все заполненные ячейки в столбце A, начиная с A2.

    Типичные ошибки и как их избежать

    Даже опытные пользователи Excel допускают ошибки при построении графиков распределения. Вот самые распространённые из них и способы их исправления:

    • 🚫 Неправильные интервалы: слишком широкие или узкие бины искажают распределение. Решение: используйте правило Стерджеса для определения оптимального числа интервалов: k = 1 + 3,322 * log(n), где n — количество наблюдений.
    • 🚫 Игнорирование выбросов: экстремальные значения смещают график. Решение: исключите выбросы или выделите их в отдельный интервал "Прочее".
    • 🚫 Некорректные подписи осей: отсутствие единиц измерения или неверные легенды. Решение: всегда указывайте, что измеряет каждая ось (например, "Рост, см" и "Частота, %").
    • 🚫 Использование неподходящего типа графика: например, круговая диаграмма для распределений. Решение: для распределений подходят только гистограммы, графики или точечные диаграммы.

    Ещё одна частая проблема — несовпадение диапазонов при построении кумулятивных графиков. Например, если верхняя граница последнего интервала меньше максимального значения в данных, кривая CDF не достигнет 100%. Всегда проверяйте, что:

    Максимум в данных ≤ Верхняя граница последнего интервала.

    ⚠️ Внимание: В Excel 365 и 2019 появился новый тип диаграммы — "Карта деревьев" (Treemap). Не путайте её с гистограммой! Карта деревьев показывает иерархические данные, а не распределения.

    FAQ: Ответы на частые вопросы

    Можно ли построить график распределения без надстройки "Анализ данных"?

    Да, вы можете вручную рассчитать частоты с помощью функции ЧАСТОТА и построить гистограмму или график плотности на основе этих данных. Для сглаживания кривой используйте линию тренда (полиномиальную или скользящее среднее).

    Как построить график нормального распределения с заданными параметрами (среднее и стандартное отклонение)?

    Создайте столбец с значениями X (например, от -3 до 3 с шагом 0,1). В соседнем столбце используйте функцию:

    =НОРМ.РАСП(A2; $Среднее; $Стд_откл; ЛОЖЬ)

    где $Среднее и $Стд_откл — ячейки с параметрами распределения. Постройте график по этим данным.

    Почему моя гистограмма получается "рваной" с большими провалами?

    Это типично для небольших выборок или слишком узких интервалов. Решения:

    • Увеличьте ширину интервалов (бинов).
    • Используйте сглаживание (линию тренда).
    • Примените ядерную оценку плотности (KDE) с помощью надстроек типа Real Statistics Resource Pack.

    Как экспортировать график распределения в высоком разрешении?

    Кликните по графику правой кнопкой → Сохранить как рисунок. Выберите формат PNG или EMF для векторного качества. Для максимального разрешения предварительно увеличьте размер графика на листе, растянув его мышью.

    Можно ли автоматизировать обновление графика при изменении данных?

    Да, для этого:

    1. Используйте таблицы Excel (выделите данные → Вставка → Таблица).
    2. Для динамических диапазонов применяйте функции СМЕЩ или ИНДЕКС.
    3. Настройте срезы (вкладка Вставка → Срез), чтобы фильтровать данные без изменения формул.