Тип графика "Box Plot" (ящик с усами, блокспот).
Пиктограмма
Данный тип графика вызывает нуждается в дополнительных пояснениях в части его применения в бизнес-инфографике.
Данный тип выборки используется для оценки разброса выборки некоторых значений. Для определенности, можно принять, что выборка - это дневные обороты денежных средств, допустим, поступления на счет. Для оценки разброса сумм подходит блокспот.
Для построения графика необходимо понимать оценку свойств выборки с названием "квартиль".
Пусть x1, x2, ..., xN - значения выборки.
Для выборки строится гистограмма. По гистограмме рассчитываются квартили, те значения, которые отсекают 0%, 25%, 50%, 75%, 100% от всего распределения данных.
Третий квартиль (50%) к тому же является медианой.
Для построения графика блокспот важны второй и четвертый квартиль (25% и 75%).
Обозначим x1/4 - второй квартиль, x3/4 - четвертый квартиль.
Второй и четвертый квартиль позволяют рассчитать межквартильный разброс:
Именно эта величина определяет высоту ящика на графике.
Пиктограмма
Данный тип графика вызывает нуждается в дополнительных пояснениях в части его применения в бизнес-инфографике.
Данный тип выборки используется для оценки разброса выборки некоторых значений. Для определенности, можно принять, что выборка - это дневные обороты денежных средств, допустим, поступления на счет. Для оценки разброса сумм подходит блокспот.
Для построения графика необходимо понимать оценку свойств выборки с названием "квартиль".
Пусть x1, x2, ..., xN - значения выборки.
Для выборки строится гистограмма. По гистограмме рассчитываются квартили, те значения, которые отсекают 0%, 25%, 50%, 75%, 100% от всего распределения данных.
Третий квартиль (50%) к тому же является медианой.
Для построения графика блокспот важны второй и четвертый квартиль (25% и 75%).
Обозначим x1/4 - второй квартиль, x3/4 - четвертый квартиль.
Второй и четвертый квартиль позволяют рассчитать межквартильный разброс:
IQR = x3/4 - x1/4.
Именно эта величина определяет высоту ящика на графике.
Низ ящика - x1/4, верх ящика - x3/4.
Усы по умолчанию обозначают точки, удаленные от ящика на полтора IQR.
Нижний ус рассчитывается по формуле:
Y1 = x1/4 - 1.5*IQR.
Y2 = x3/4 + 1.5*IQR.
Но следует обратить внимание на терминологию "выбросы". Точки являются выбросами с точки зрения графика, но так ли это на самом деле и можно ли смело отбрасывать точки, обозначаемые как выбросы с точки зрения построения тенденций и оценки рисков?
Ответ - однозначно нет.
Этот ответ доказывается построением контрпримера.
А именно, возьмем, например, 4 выборки случайный величин, распределенных по законам:
- Равномерное распределение.
- Нормальное распределение.
- Распределение Коши.
- Экспоненциальное распределение.
Разброс по данным распределениям выглядит примерно так (скриншот сделан SAP Lumira).
Суть контрпримера состоит в том, что чем больше объем выбор тем больше точек, трактуемых график как "выброс", таковыми в реальности не являющимися.
Например, на графики ниже подобраны характеристики распределений с равными медианами и объемами выборок 1024 единицы (скриншот сделан с помощью RStudio).
И что мы видим?
- Равномерное распределение при увеличение выборки показывает отсутствие выбросов (первый ящик).
- Нормальное распределение дает "выбросы", расположенными близко к усам.
- Распределение Коши показывает бесконечно растущие "выбросы" по мере увеличения выборки, что соответствует характеру распределения с бесконечным математическим ожиданием и бесконечной дисперсией.
- Экспоненциальное распределение дает растущие вверх по мере увеличения выборки "выбросы".
Вывод. График блокспот хорош для оценки разброса, но не стоит пренебрегать "выбросами". Возможно, они могут дать подсказку о характере распределения анализируемых величин. И подобная визуализация данных хороша перед тем, как приступать к применению статистических критериев.
Примечание. Распределение Коши, в частности, получается при делении друг на друга нормально распределенных случайных величин. То есть, все R-коэффициенты (ROI, ROC, ROS, ...). Было бы опрометчивым пренебрегать данным соображением.
Приложение.
Текст модели, исполняемой в среде R.
n <- 1024
mm <- 2
ss <- 1
d1 <- rnorm(n,mean=mm,sd=ss)
summary(d1)
d2 <- rexp(n,rate=log(2)/mm)
summary(d2)
d3 <- rcauchy(n, location = mm, scale = 1)
summary(d3)
d4 <- runif(n, 1,3)
summary(d4)
mean(d3); sd(d3)
d <- data.frame(unif=d4,
norm=d1,
cauchy=d3,
exp=d2)
boxplot(d,ylim = c(-4, 12),col=c("gray","green","yellow","red"))
Комментариев нет:
Отправить комментарий