前视偏差:使用未来数据
“前视偏差”也被称为“未来数据”问题。这是指在构建模型或制定投资策略时,若使用了在实际操作过程中无法获得或尚未产生的信息,就会导致前视偏差。举例来说,假设你编写了一个投资策略:在每天的最低点买入,最高点卖出。这种策略在模拟中可能会展现出非常优美的收益曲线,但实际上,这是无法实现的,因为我们无法事先知道每天的最低价和最高价。
尽管使用未来数据在历史数据上可能会展现出相当好的表现,但在实际操作中,由于无法获取未来数据,模型的预测性能会大幅下降。因此,避免使用未来数据是量化投资中的一个关键原则。在构建模型和制定投资策略时,需要确保所有使用的数据都是在实际操作时可以获取的。
有些使用未来数据的情况比较明显,而另一些则相当隐蔽,需要我们特别警惕。以下是一些常见的使用未来数据陷阱:
一、在特定的时间点使用了未来才能获得的数据,常见的有:
- 在收盘前就使用了在收盘之后才能获取的行情数据,例如:以最高价或最低价作为成交价。
- 在财报公布之前就使用了财报的数据。这是许多初学者常犯的错误。因为财报的发布时间通常晚于财报的截止时间,比如一季度报告的截止时间是3月31日,但公布时间可能在4月1日到4月30日之间。如果在一季度结束之后就开始使用一季度报告的数据,但在那个时候,公司的一季度报告可能尚未公布,这就构成了使用未来数据。
二、在对时间序列进行计算时使用了未来数据。
在量化投资中,我们经常需要对时间序列进行运算,如对一个时间序列数组求和、计算均值或者计算中位数等。如果在某一天进行这种时间序列运算时,使用了这一天之后的数据,那么计算结果就会涉及到未来数据。
三、在数据清洗和预处理过程中使用了未来数据。
如果在处理缺失值、异常值或者平滑数据时使用了未来的信息,这同样可能引入未来数据。
四、不适当地使用滑动窗口。
在使用滑动窗口技术对数据集进行训练时,如果窗口范围涵盖了未来的数据,就会导致前视偏差。例如,如果在预测明天的价格时,使用了明天以后的数据来训练模型,这也会产生未来数据问题。
五、在复杂的机器学习模型中存在隐藏的前视偏差。
一些复杂的机器学习模型,例如深度学习模型,可能会在模型的内部结构中隐藏前视偏差。如果模型在处理时间序列数据时,没有正确地处理时间信息,那么可能会在模型的内部结构中引入未来数据。
六、成分股变动的问题。
指数、行业或概念是由特定的一组股票组成的,这些股票被称为成分股。然而,这些成分股并不是固定不变的,而是会随着时间的推移而变化。例如有的股票会因为各种原因(比如市值增长、基本面改善等)被列入指数,而有的股票则可能因为相反的原因被剔出指数。
在进行基于指数、行业或概念的成分股的量化策略回测时,如果只使用最新的成分股进行模拟交易,那么这将导致未来数据问题,因为未来成分股的变动信息在实际交易中是不可能知道的。
因此,量化回测时需要考虑成分股的变化。具体来说,应该使用每个交易日实际的成分股进行模拟交易。这就需要收集每个交易日的成分股,以及这些成分股的价格、交易量等信息。
七、不正确地使用前复权数据。
前复权的计算公式是:
前复权价格 = 当日未复权价格 × 当日复权因子 / 最新复权因子
比如我们在今天(假设是2023年8月1日)计算某只股票的前复权价格,在历史数据中,2023年6月15日发生了一次除权除息事件(这一天的复权因子发生了变化)。如果我们简单按照前述公式进行前复权,那么公式中的“最新复权因子”就是2023年6月15日更新后的复权因子。但问题在于:在2023年6月15日以前,我们能获得这一天的复权因子吗?答案显然是否定的,因此,在计算2023年6月15日以前的前复权价格时,我们实际上使用了未来数据。
不正确地使用前复权价格引入的未来数据比较隐蔽,往往会被忽视。但这种未来数据可能会带来重大的影响。因为这种方式的前复权会使得在过去的日期就能知道未来所有的除权除息事件,而这些事件往往会影响股价,可能是利好或利空事件。例如,曾经有一段时间,资本公积金转增资本会被视为利好,在市场情绪的驱动下,可能会带动股票价格的上涨。
由此可见,由于前复权计算会使用到“最新复权因子”,如果这个“最新复权因子”使用了未来的股本变动信息,就会引入未来数据。为了避免这种情况,我们需要确保在进行前复权时,只使用到当前和过去的股本变动信息,避免使用未来的信息,即进行“动态复权”。但动态复权处理起来相对复杂,复权中避免未来数据的一个更简便的方法是使用后复权数据。
前视偏差是量化投资中的一个核心问题和挑战。无论是在构建模型,制定策略,还是在数据处理和模型训练中,我们都需要时刻警惕并避免使用未来数据。同时,我们也要注意那些可能隐藏未来数据的情况,比如在滑动窗口,复杂的机器学习模型,或者前复权数据计算中。只有通过严谨的处理和对数据的深入理解,我们才能确保量化模型和策略的有效性和稳定性,从而在投资领域中实现长期的良好表现。
发布者:爱吃肉的小猫,转载请注明出处:https://www.95sca.cn/archives/45715
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!