读书投资打开量化交易的黑箱004

数据驱动型阿尔法模型，所使用的输入变量主要是交易相关的（绝大部分是价格数据），试图找出一些对未来具有解释能力的模式。这类模型有两大优势。首先，与理论型策略相比，数据挖掘明显更具有技术挑战性，并且在实业界使用很少。这意味着市场上少有竞争者，这是大有裨益的。由于理论驱动型策略通常易于理解，并且在构建相应模型时所使用的数学工具通常来说也并不复杂，所以进入的门槛自然会低一些。数据驱动型策略就没有这样的优势，进入门槛比较高。其次，数据驱动型策略可以分辨出一些市场行为，无论该行为目前是否可以用理论加以解释，从而即使不理解某些市场行为的成因依然可以发现它们。相比而言，理论驱动型策略只能捕获到人们已经对其有所认识的一些行为，从而将其范围局限于上文我们所提及的6种类型。

例如，在股票、期货或外汇市场，很多高频交易者喜欢使用纯粹经验主义的数据挖掘的方法去设计其短期交易策略。这类数据挖掘类策略在高频交易中的应用很成功。如果设计得当，这类策略可以分析出市场的运作规律，而不必担心背后的经济理论或理论解释。由于目前缺乏人工和电脑程序化高频交易的理论基础，基于经验的方法要比理论型方法大有优势。此外，在高频交易的时间尺度上数据资源非常丰富，经验主义者可以通过各种数据进行验证，最终找到具有统计学意义上的显著性的结果。但是，数据挖掘型策略也有很多缺陷。首先，研究人员必须决定用什么数据去建模。如果他所使用的数据和想要预测的东西根本没有联系或者联系甚微，他可能得到看似显著实际很荒谬的结果。其次，如果研究人员使用所有被认为有助于进行市场预测的变量，那么算法所需要的计算量会大到无法实现。除了计算量上的困难之外，还有个问题需要考虑。使用这种方式从历史数据得到策略，相当于假设了未来和历史的表现会很类似，而实际上很多时候未来的走势会和历史数据差别很大，即便差别不大也只是在较短时间内。为解决这一问题，数据挖掘类策略需要经常性的调整，以便与市场变化保持一致，而这种调整本身又含有很大风险。

另一个问题是，仅仅根据数据挖掘算法设计的阿尔法模型，会让人觉得有些靠不住。如果输入变量中噪声信息过大，包含着很多错误的信号，会误导数据分析人员，干扰其判断。总之，尽管存在一些例外，仅使用数据挖掘技术去制定策略用于预测市场走向，通常并不可行。

基本上使用数据挖掘策略的宽客都是首先观察目前的市场环境，然后在历史数据中寻找类似的环境，来衡量市场接下来的几种走势的出现概率，基于这种可能性进行交易。在这一流程中，他们至少要搞清楚以下几个问题。首先，如何定义“目前的市场环境”？牢记一点：在量化交易策略中不允许存在任何模糊的余地。仅仅告诉电脑“找出历史上和现在很相像的市场环境”是远远不够的。我们必须精确地定义“现在”“环境”具体指什么。说到“现在”，即便我们不去探讨时间的哲学概念，“现在”可以指一瞬间、刚过去的10分钟、过去的10年等。这并不存在统一的标准，宽客在这一点上可以根据自己的偏好进行选择。

其次，寻找“相似”模式使用什么搜索算法？随之而来的一个问题是：如何定义“相似”？另一个相关问题是：算法采用什么方法来给出未来各种可能情况的概率？这些都是最不容易概念化又最具技术性的问题。选择适用于所要处理数据集的统计工具是极为重要的，宽客必须重视这一点。

再次，如何确定历史数据的回溯时间段？显然地，追溯历史数据寻找相似模式时要回溯多久是个更加直接的问题。通常是选择折中方案，这种方案常见于量化研究和主观型投资管理中。