量化实战入门(19)幸存者偏差:被忽略的沉默数据

幸存者偏差:被忽略的沉默数据

“幸存者偏差”是一种普遍存在的逻辑误区,它指的是我们过度关注成功的例子,却忽视了失败的例子。这种偏差在日常生活中无处不在,例如,我们看到某个热门店铺生意兴隆,顾客络绎不绝,就轻易地得出结论,认为这类店铺的生意都一定很好,但却忽略了那些已经倒闭或举步维艰的同类店铺。
在投资领域,幸存者偏差同样常见。比如,一个明星基金经理近期的收益表现非常亮眼,这只基金很可能会受到大家的追捧。但是,大家可能只看到了成功的一面,而没有全面地考察这个基金经理管理的全部同类型的基金、该基金经理长期的收益表现、以及所在的基金公司管理的同类基金。我们不仅要了解表现好的基金,还要了解那些表现不好甚至已经清盘的基金,这样才能得出更为客观的结论。
本节我们将阐述在量化投资中常见的幸存者偏差,以及如何避免这种偏差。另外,我们还会提及一类称为选择偏差的问题,这指的是由于样本选择不当,导致样本数据不能代表整体数据的偏差。虽然选择偏差和幸存者偏差的概念并不相同,但两者有一定的关联,本节的内容将会同时涉及这两种偏差。
01

幸存者偏差和选择偏差在量化投资中的常见的表现

  1. 只选取现存的股票构建股票池
    在构建量化模型时,我们通常需要先选择一个股票池,然后在这个股票池中进行回测或分析。如果在确定股票池的时候,只选择了现存的股票,忽视了已经退市的股票,这就构成了一种幸存者偏差。只选择存活下来的公司,往往会导致我们对选股策略的有效性估计过高,而对策略的风险估计过低。
  2. 股票池或持仓股票数量太少
    如果策略的股票池中股票的数量太少,或者策略回测时选取的持仓股票太少,都可能让我们陷入幸存者偏差的陷阱。太少的股票带来的高回报可能存在很大的偶然性,在未来可能很难复现。
  3. 策略评估只关注表现好的参数
    投资策略可能有多个参数值,我们常常只关注其中表现好的参数值,而忽视了参数的其他取值。例如,一个均线策略,如果用20天均线取得了很好的回报,我们可能就此得出策略有效的结论。但是,我们可能忽视了其他天数均线的效果,如果用差别不大的其他天数的均线都不太理想,那么用20天均线就是“幸存”的成功策略。这就构成了幸存者偏差。
  4. 优选“赢家”策略
    有一种策略方法是根据历史回报高的股票的共同特征,制定投资策略。然而,这些“赢家”股票可能仅仅是因为偶然性或市场条件的特定配合,而这些条件在未来可能无法复制。历史并不总是重演,根据历史上的幸存者总结的特征,并不一定能带来未来的收益。
  5. 幸运时段
    如果一个策略总体收益不错,但仔细分析后发现这个策略的收益主要来自某段时间,而在其他时间则表现平平,这也属于幸存者偏差。
  6. 时间区间选择偏差
    这种偏差是指在选择数据的时间区间时产生的偏差。例如,如果你只选择在牛市期间的数据进行回测,那么你的策略可能会过度优化这种市场环境,而在其他市场环境中表现不佳。
  7. 资产类别选择偏差
    这种偏差是指在选择投资的资产类别时产生的偏差。例如,如果你的策略只对大盘股有效,而你用这个策略去投资小盘股,那么你的策略可能会表现不佳。
    以上是幸存者偏差和选择偏差在量化投资中的常见表现。另外需要注意的是,有的人可能会利用幸存者偏差来故意误导,以达到吸引注意的目的,比如:
  8. 夸大某种指标的收益
    有些人会宣称使用某种神奇的指标能取得高额的收益,并给你展示这种指标使用的成功案例。但其实很可能这些成功案例都是有意挑选出来的“幸存者”,如果扩大验证指标的样本量、延长回测的周期,这些指标可能不再有效。
  9. 展示超高回报的回测
    有的人会展示一些具有非常高回报的回测,这些回测很能吸引人,但如果这些回测采用了小范围的股票池,或选股条件非常苛刻,或回测期间比较短、或策略参数是个奇怪的值,你就要注意这是不是利用幸存者来构建的回测。一个充满幸存者偏差的回测是不可能在现实中实现的。
    02

如何避免幸存者偏差和选择偏差
幸存者偏差和选择偏差都可能严重扭曲研究结果,导致过度优化和不准确的预测。以下是一些避免这两种偏差的建议:

  1. 使用全样本的数据集
    确保你的数据集包含所有相关的投资标的,包括那些已经退市的。这些退市的公司会包含一些重要的信息,例如为什么某些公司会失败。这种信息对于构建一个健壮的投资策略是非常重要的。
  2. 增加样本的数量
    在回测中增加股票池的数量和持仓股票的数量,更多数量的样本得出的结论更可靠。
  3. 拉长回测的时间范围
    回测的期间要足够长,并且包括牛市、熊市、震荡市等各种情况。
  4. 增加模型参数的“鲁棒性”
    当模型的参数发生变化时,模型的性能仍然保持稳定,这就是我们说的参数具有很好的鲁棒性。一个模型的参数具有良好的鲁棒性,那么这个模型就更可能在面对新的、未知的数据时,表现出良好的性能。
  5. 多元化投资组合
    通过多元化投资组合,可以降低选择偏差的影响。这样做的好处是,即使某个投资标的表现不佳,其他投资标的的表现也可能会抵消这种影响。
    通过以上这些方法,可以降低幸存者偏差和选择偏差的影响,做出更准确的投资决策。在实际的量化投资实践中,我们需要时刻警惕幸存者偏差和选择偏差,从数据的选取到模型的构建,再到策略的回测,都需要严谨的处理和深入的理解。只有这样,我们才能建立起真正有效的量化模型和策略,从而在投资领域中取得稳定和持久的回报。

发布者:爱吃肉的小猫,转载请注明出处:https://www.95sca.cn/archives/45727
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!

(0)
爱吃肉的小猫的头像爱吃肉的小猫
上一篇 2024 年 6 月 20 日 上午10:12
下一篇 2024 年 6 月 20 日 上午10:15

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注