Sunday, April 4, 2010

Choosing Sample

There are 2 limitations on the idea of "the larger, the better", when it comes to selecting an appropriate sample size. One is that larger samples may contain observations from a different populaiton (distribution). Th other one is costs of using a larger sample.

Biases:
数据线安泽偏差(Data mining/data snooping bias)
数据挖掘偏差是研究基于历史经验据而不是基于经验验证过的发展的经济理论所产生的误差。Data snooping causes data mining,当分析者一直使用相同的数据库来进行研究,这就产生了数据挖掘偏差。

样本选择偏差(sample selection bias)
样本选择偏差是一种系统性的,因为样本不是随机的,得到的任何结果就不能用用到总体分布。一个典型的形式是生存偏差(survivorship bias),比如共同基金的morningstar指数。

预测偏差(Look-ahead bias)
预测偏差发生在分析这在研究的时候,用的数据早就过时了。

时间阶段偏差(Time period bias)
当被研究数据的时间跨度无法确定,要么太长,要么太短时,就会产生时间阶段偏差。

No comments:

Post a Comment