пятница, 3 марта 2017 г.

Для чего может пригодиться Box Plot

Тип графика "Box Plot" (ящик с усами, блокспот).
Пиктограмма

 

Данный тип графика вызывает нуждается в дополнительных пояснениях в части его применения в бизнес-инфографике.

Данный тип выборки используется для оценки разброса выборки некоторых значений. Для определенности, можно принять, что выборка - это дневные обороты денежных средств, допустим, поступления на счет. Для оценки разброса сумм подходит блокспот.

Для построения графика необходимо понимать оценку свойств выборки с названием "квартиль".

Пусть x1, x2, ..., xN - значения выборки.
Для выборки строится гистограмма. По гистограмме рассчитываются квартили, те значения, которые отсекают 0%, 25%, 50%, 75%, 100% от всего распределения данных.
Третий квартиль (50%) к тому же является медианой.
Для построения графика блокспот важны второй и четвертый квартиль (25% и 75%).
Обозначим x1/4 - второй квартиль, x3/4 - четвертый квартиль.
Второй и четвертый квартиль позволяют рассчитать межквартильный разброс:

IQR = x3/4 - x1/4.

Именно эта величина определяет высоту ящика на графике.




Низ ящика - x1/4, верх ящика - x3/4.
Усы по умолчанию обозначают точки, удаленные от ящика на полтора IQR.
Нижний ус рассчитывается по формуле:

Y= x1/4 - 1.5*IQR.
Y= x3/4 + 1.5*IQR.

Точки, лежащие вне "усов", рассматриваются как выбросы и поэтому рисуются отдельно.

Но следует обратить внимание на терминологию "выбросы". Точки являются выбросами с точки зрения графика, но так ли это на самом деле и можно ли смело отбрасывать точки, обозначаемые как выбросы с точки зрения построения тенденций и оценки рисков?

Ответ - однозначно нет.
Этот ответ доказывается построением контрпримера.
А именно, возьмем, например, 4 выборки случайный величин, распределенных по законам:

  • Равномерное распределение.
  • Нормальное распределение.
  • Распределение Коши.
  • Экспоненциальное распределение.
Разброс по данным распределениям выглядит примерно так (скриншот сделан SAP Lumira).




Суть контрпримера состоит в том, что чем больше объем выбор тем больше точек, трактуемых график как "выброс", таковыми в реальности не являющимися.
Например, на графики ниже подобраны характеристики распределений с равными медианами и объемами выборок 1024 единицы (скриншот сделан с помощью RStudio).


И что мы видим?

  • Равномерное распределение при увеличение выборки показывает отсутствие выбросов (первый ящик).
  • Нормальное распределение дает "выбросы", расположенными близко к усам.
  • Распределение Коши показывает бесконечно растущие "выбросы" по мере увеличения выборки, что соответствует характеру распределения с бесконечным математическим ожиданием и бесконечной дисперсией.
  • Экспоненциальное распределение дает растущие вверх по мере увеличения выборки "выбросы".
Вывод. График блокспот хорош для оценки разброса, но не стоит пренебрегать "выбросами". Возможно, они могут дать подсказку о характере распределения анализируемых величин. И подобная визуализация данных хороша перед тем, как приступать к применению статистических критериев.

Примечание. Распределение Коши, в частности, получается при делении друг на друга нормально распределенных случайных величин. То есть, все R-коэффициенты (ROI, ROC, ROS, ...). Было бы опрометчивым пренебрегать данным соображением.

Приложение.

Текст модели, исполняемой в среде R.

n <- 1024
mm <- 2
ss <- 1
d1 <- rnorm(n,mean=mm,sd=ss)
summary(d1)
d2 <- rexp(n,rate=log(2)/mm)
summary(d2)
d3 <- rcauchy(n, location = mm, scale = 1)
summary(d3)
d4 <- runif(n, 1,3)
summary(d4)
mean(d3); sd(d3)
d <- data.frame(unif=d4,
                norm=d1, 
                cauchy=d3,
                exp=d2)                

boxplot(d,ylim = c(-4, 12),col=c("gray","green","yellow","red"))

Комментариев нет:

Отправить комментарий