这样的话,接下来要思考的就是,把这两家店作为离群点与其他数据分开来看是否合适。
那么,我们试想一下,在怎样的情况下会出现人数多但销售额不高(X店),以及人数少但销售额较高(Y店)的情况呢?
(X店)
团队合作不佳
店长刚刚变更,经营方针落实得不彻底
虽然人数多,但有几个人实质上并没有在工作等
(Y店)
人数虽然少,但其中有经验的人较多,接待顾客的技巧非常高
得益于店长的经营技巧,下了一些有别于其他店铺的功夫
有地方优势,如顾客流量高等
造成与其他店铺情况不同的趋势,可能存在多个原因。如果对刚才罗列出来的可能性进行充分验证后,发现确实存在上述某些情况,就可以把X店和Y店作为离群点剔除。剔除了X店和Y店以后的散点图,就可以代表整体趋势。
我们能够发现离群点,是因为如上述所言,通过描绘散点图,得以从视觉上获取信息。从表格中的数据去识别离群点虽然也可行,但数据量增加后就会变得困难。这就是在直接计算相关系数之前要先描绘散点图的原因。
在剔除离群点的时候,可以从以下三个角度来考虑。