为什么金融领域的机器学习如此困难?

·
论文 | Meta contrastive label correction for financial time series
·

金融市场是最早应用机器学习(ML)的领域之一。自1980年代以来,人们一直在使用ML来发现市场运行模式。尽管过去ML在预测市场结果方面取得了巨大成功,但最近的深度学习进展并没有对金融市场预测提供太大帮助。有许多论文声称深度学习模型在金融领域具有很高的准确性,但这些结果需要更加谨慎地评估。其中一些模型确实具有更好的预测精度,但显著性不强,并且模型的有效性仍然存在局限性。有很多原因导致金融市场很难被预测,本文将会解释其中的一些原因,并给出一些建议。

不一致的数据分布

数据分布问题至关重要——几乎所有做研究论文都忽略了这一点。我们可以将金融数据集与图像分类数据集进行对比,以更好地理解这一点。以CIFAR-10 数据集为例,它由10个类组成,每个类别的训练集中正好有 5000 张图像,每个类别的测试集中正好有 1000 张图像。
图片
训练集中的图片分布和验证集中的图片分布是一样的,即数据是同分布的。但是对于大多数金融数据集来说,这个假设是不成立的。市场是不断变化的,未来和现在的数据分布是不一致的。这也是将机器学习应用于现实世界问题时的一个常见问题。

极少的数据样本

金融任务可以使用的数据是有限的。一个例子是劳动力统计数据,如失业率和非农就业人数,每个月只有一个数据样本。另一个极端的例子是金融危机——可能只有一个数据点可供模型进行学习。
小样本的数据使得应用自动化学习方法变得非常困难。许多人尝试将不太频繁的统计数据与相对频繁的数据结合起来提供给模型进行训练,但是这也会带来新的问题,如过拟合和训练失衡。

无法量化的数据

通常我们会认为金融史的时间线与人类历史时间线是一样的。但不幸的是,将其转换成可量化的数据,即可供算法理解的形式,是很困难的。例如,即使我们对 1930 年代大萧条期间发生的事情有完整的了解,也很难将其转换成数据,以便模型进行训练。这是因为财务和经济事件通常具有非常复杂的背景和影响因素。要将它们转换为数字形式,需要对各种因素进行建模和分析,包括政治、社会、技术等方面的因素。这些都需要大量的数据和专业知识才能够实现。

此外,还存在一些难以量化的因素,如市场情绪和信心等。这些因素可以在一定程度上影响市场走势,但很难用数字来表示。因此,为了训练模型,我们需要寻找可靠的数据来源,并尽可能多地使用它们来训练模型。同时,需要注意数据的质量和可靠性,以确保模型得到的结果是准确可靠的。

复杂的影响因素

金融预测问题之所以非常复杂,是因为它涉及到许多不同的影响因素。这些因素可以在各种时间尺度和层面上影响市场价格的变化,并且通常彼此之间相互作用。例如,在短时间尺度上,高频交易和算法交易可以对价格波动产生影响;而在中长时间尺度上,新闻、谣言和公司业绩等因素则可能更重要。在更长时间范围内,价值投资和经济周期可能会成为主要的价格变化驱动因素。

除了时间尺度外,还有其他影响因素,如政治、社会、技术、自然灾害等方面的因素都可能影响市场走势。同时,市场情绪和信心等难以量化的因素也可以影响市场价格的变化。由于金融预测问题涉及到这么多的影响因素,因此其预测过程非常复杂并且具有挑战性。这需要使用专业技术和大量数据来构建模型,并且需要进行持续的更新和调整,以确保模型的准确性和可靠性。

部分可观察的马尔可夫决策过程

金融可以被视为部分可观察的马尔可夫决策过程(POMDP),因为在金融市场中,不同的事件和因素会相互影响,导致市场价格的变化。由于市场信息是部分可观察的,因此我们无法完全了解市场价格如何受到各种因素的影响。即使在任何时间点,我们都不能完全预测未来发展趋势。

我曾尝试将强化学习方法应用于金融问题,即使我极度简化了问题(即状态和动作空间),它也无法学到任何有用的东西。我花了数周时间研究它为什么不起作用。事实证明,强化学习方法可能无法有效地应用于财务问题,因为算法需要具有足够的预测性才能有效运作。

与推荐系统的相似之处

金融预测与推荐系统之间存在许多相似之处。两者都面临准确性不高的问题,因为在推荐系统中,用户的选择可能性很低,而在金融时间序列中,大多数二元分类问题的准确率也非常接近50%。此外,两者的数据集都存在噪声和季节性,需要处理看不见的事件,并且必须结合不同类型的数据进行模型训练。

在推荐系统中,用户的选择通常受到许多影响因素的影响,包括个人偏好、历史数据等。类似地,在金融预测中,市场上的价格变化受到许多因素的影响,如政治、社会、技术等方面的因素。因此,在这两种情况下,建立一个有效的模型需要使用专业技术和大量的数据来捕捉这些影响因素,并构建精准的预测模型。

总结

总的来看,金融时间序列确实是一种部分可观察的马尔可夫决策过程(POMDP),即使对于人类来说也很难完全了解和预测。因此,我们不能期望机器和算法能够突破人类的能力限制。虽然算法可以通过冷静地发现硬编码模式并采取相应行动来提高预测准确性,但这种方法仍然有其局限性。简单模式识别案例已经被用尽了,要想进一步提高准确性,需要更多的数据和更复杂的算法来捕捉市场中更广泛的变化和趋势。

另外,我们也不能期望算法会完全替代人类交易员和分析师的角色。虽然算法可以自动处理大量数据和执行特定任务,但在某些情况下,人类专业知识和经验仍然是不可或缺的。因此,在金融领域,最好的方法是将算法和人类专家的优点结合起来,以便更好地理解市场并做出更准确的决策。

发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/110969
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!

(0)
股市刺客的头像股市刺客
上一篇 1天前
下一篇 1天前

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注