盒形图是为表示定量变量所常用的图形之一,其他几类图形有直方图、茎叶图、散点图,都属于质量管理方面等的统计工具。 盒形图英文名称为boxplot,中文名称又有如下说法:箱图、箱线图、盒子图。盒形图相对简单,使用方便,相对于另外三种图形有自身独特优点。 盒形图例:图的左边一个是根据地区1 高三男生的身高数据所绘的盒形图;其右边的图代表另一个地区(地区2 )的高三学生的身高。 图中:红色盒子(矩形框)是盒形图的主体,中间的黑色横线是数据的中位数 (median) 。顾名思义,中位数是数据中占据中间位子的数,即数据中有一半大于中位数(在其之上),另一半小于中位数(在其之下)。 红色盒子的上下两边称为上下四分位数(点),其意义为:数据中有四分之一的数目大于上四分位数(即红色盒子的上边),即在红色盒子之上;另外有四分之一的数目小于下四分位数(即红色盒子的下边),也就是在红色盒子之下。也就是说有一半的数目在中间封闭盒子的范围内。有一半分布在盒子上下两边。 在盒子上下两边分别有一条纵向的线段,叫触须线。上截止横线是变量值本体最大值,下截止横线是变量值本体最小值。本体指的是除异常值和极值以外的变量值称为本体值。异常值标记为o,极值标记为*。高于触须线上截止横线的值的取值范围为:(1)异常值:x>上四分位数+1.5IQR;(2)极值:x>上四分位数+3.0IQR;低于触须线下截止横线的值的取值范围为:(1)奇异值:x<下四分位数-1.5IQR;(2)极值:x<下四分位数-3.0IQR;从而表明盒子外面数值点的分布。IQR(interquartile range)=上四分位数-下四分位数。因为若干个盒形图往往放在一个图中比较。在该例中,通过图可以看出左面的度量比右边的分散得多,但总的来说似乎地区1 的学生要高一些。