量化实战入门(17)数据陷阱

数据陷阱:垃圾进,垃圾出

量化投资通过系统化和自动化的方式,可以处理大量的信息,将复杂的投资决策简化为可执行的算法,避免了情绪导致的投资错误,而且可以快速调整和优化投资策略,提高了投资的效率和稳定性。然而,尽管量化投资有这么多的优点,但也隐藏着许多投资者可能忽视的危险。在本章中,我们将探讨量化投资的常见陷阱,包括:
数据陷阱:数据质量或计算问题会对模型造成不利的影响。
前视偏差:我们在策略回测时知道所有的历史信息,但站在过去的角度,所有“当时”之后的信息都是未知的,如果在过去的时点使用了“未来”的信息,就会陷入前视偏差。
幸存者偏差:在投资中我们常常只看到成功的一面,而忽视了失败的一面,就像在车厢里调查买车票难不难一样,幸存者偏差会夸大模型的效果。
优化偏差:过度的优化策略,即便策略在样本内数据中表现很好,但在样本外就会失效。
实盘偏差:如果忽视了实际交易中的限制,策略回测中的情形在实盘是无法实现的。
我们会讨论这些问题的成因,以及如何避免或者最小化这些风险。
本节介绍数据陷阱。数据是量化模型的输入项,如果数据本身存在问题,或处理数据的方法存在问题,就会“垃圾进,垃圾出”,因此应注意规避数据陷阱。
常见的数据陷阱和预防措施有以下一些:
一、数据质量问题
量化投资涉及众多数据,数据的获取的途径也多种多样,要注意这些数据可能存在各种问题,如:错误值、缺失值、异常值、重复值、格式不一致、单位不一致等。如果输入模型的数据质量差,那么模型的预测结果也很可能不准确。
我们可以从以下几个方面来避免数据质量陷阱:

  1. 选择质量有保障的数据源
    量化数据的来源有从网上爬取的,也有从数据供应商处获取的,有免费的,也有收费的,通常而言专业的数据供应商提供的数据质量更有保障。
  2. 进行数据清洗
    数据清洗就是对错误值、缺失值、异常值、重复值、单位不一致、格式不一致的数据进行预先处理,有关数据清洗的内容在后面的章节会专题讨论。
    二、复权价格的问题
    由于分红、配股等事件,股票价格存在复权问题,复权的方法有前复权、后复权等,量化模型采用哪种复权方法是需要考量的。
    前复权是以最新的价格变动为基准,将所有历史数据按照这个基准进行调整。对于有持续分红的公司来说,前复权价如果回溯的时间很长,可能会出现负值。股票价格出现负值是不合常理的,会导致数据分析出现异常或错误。
    前复权价格在每次除权除息事件后,都需要根据最新的价格重新计算所有的历史数据,这时如果因子库中的因子值是以前复权价格计算的,就需要更新所有的历史数据,否则会导致数据错误。
    而后复权的价格由于跟实际价格可能相差巨大,不适用于实盘。
    复权的具体内容在后面的章节会专题讨论。
    三、数据维度的问题
    量化投资的数据通常涉及时间序列和横截面两个维度,新手有时候在处理数据时会混淆或忽视了这两个维度的区分,比如在进行时间序列运算时混进了横截面的数据,或在进行横截面运算时混进了时间序列的数据,这些都会导致运算结果错误。
    有关数据维度的问题在后面的章节会专题讨论。
    四、零值和负值导致的计算问题
    数据的零值和负值可能会导致多种计算问题,主要涉及到那些在计算过程中需要用到除法、对数、平方根等运算的场合。以下是一些具体的例子:
  3. 分母为零
    在金融公式中,分母为零会导致异常值。如果分母有可能出现零值,需要规定好处理规则,例如在分母中加一个小数,或当分母为零时返回值也是零,具体处理方法要视实际情况而定。
  4. 分母为负数
    以股票的市盈率PE为例:
    PE = 每股价格 / 每股收益
    通常情况下,PE越小估值越便宜。但当每股收益出现负数时,PE也为负数,这时就不是PE越小估值越便宜了。如果此时对多只股票的PE进行排序,要选出估值最低的股票,就会出现预料之外的结果。
    解决这个问题的方法是用EP取代PE:
    EP = 每股收益 / 每股价格
    EP越大估值越便宜,这样就不会受每股收益为负的影响。
  5. 对数转换
    当我们尝试对负值或零进行对数转换时,会遇到问题。例如,很多金融模型需要对收益率进行对数转换。当收益率为零或者负值时,对数转换会导致异常值。
  6. 几何平均数
    当我们尝试对负值或零计算几何平均数时,会导致异常值。
  7. 平方根
    如果你需要计算数据集中值的平方根,而数据集中含有负值,这也会导致错误。
    五、样本数据量的影响
  8. 样本数量不足
    量化策略基于历史数据进行分析验证,因此,样本数据的数量会直接影响回测的可靠性。如果样本数量过少,可能会导致回测结果的可信度不足。
  9. 样本时间范围限制
    一个鲁棒性强的策略应该能够在各种市场环境下均能表现稳定。如果样本数据的时间范围过短,未经过牛市、熊市、震荡市等各种市场状态的验证,那么该策略可能存在较大的风险。
    在本节,我们详细讨论了量化投资中常见的一个问题:数据陷阱。我们深入了解了“垃圾进,垃圾出”这一概念并探索了它在量化投资中的具体体现。数据的质量直接影响了分析的准确性和策略的有效性。如果我们使用的数据存在偏差、错误或不完整,那么我们的模型和策略可能会产生误导,导致投资表现不佳。
    我们也讨论了如何避免这个陷阱,包括选择可靠的数据源,进行细致的数据清洗和检查,以及使用适当的方法来处理数据。这些都是我们在进行量化模型构建和策略设计时必须关注的要点。

发布者:爱吃肉的小猫,转载请注明出处:https://www.95sca.cn/archives/45700
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!

(0)
爱吃肉的小猫的头像爱吃肉的小猫
上一篇 2024 年 6 月 20 日 上午10:09
下一篇 2024 年 6 月 20 日 上午10:12

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注