AI量化:从随机森林到GBDT(lightGBM)以及一些思考

从随机森林进化到GBDT,今天来一下lightGBM。

pip install lightGBM即可。

我们使用sklearn的接口,对比随机森林与GBDT。

model = RandomForestRegressor(n_estimators=20, random_state=20, verbose=20, n_jobs=10)


model = GradientBoostingRegressor(
n_estimators=20, random_state=20, verbose=20,
)

都没有调参的情况下:

随机森林的效果要好得多。但二者明显都过拟合了,测试集上的分数是负的。

从特征重要性的筛选看,二者类似,都是那几个因子。就是说因子重要性,在随机森林和梯度提升树二者中是类似的。因子是具备稳定性的。

后面的问题,一是调参,二是如何解决过拟合

参数重要还是模型重要? 大面上肯定参数重要,但参数确定的情况下,模型也要能发挥出参数的所有能量才行。

目前的一些直观印象,模型的差别没有那么大。如何让模型不过拟合,或者说有效拟合出一定的“规律”,这背后有一个“细思极恐”的事情。也许金融数据——————就没有“规律”呢?当然我们只是希望胜率高一些罢了。

集成学习值得一试,当然可以把SVM之类都纳进来对比一下。集成学习的参数有点多,而SVM之类的相对较少。

这里其实最担心的事情,就是金融数据噪声太大,没有“规律”可以统计和拟合。另外我们可以把label进行分类,把回归问题变成分类问题来预测。bigquant就是这么做的,这一点与qlib不同。

一些思考

今天想到一个事情:我们总在想,如果年少时,一个什么样的决定,不是选择B而是A,现在会不会更好,过上自己梦想中的生活呢。——这种心态常常陷于后悔与自责。

比如当年若是不离开北京;早早结婚买房,若是拿住大公司的期权;若是怎么着。。。会怎么样。

老喻在《人生算法》里讲了一个例子,如果回到过去,你能改变一个城市的事故率嘛?答案是不能。一个城市的事故率是由环境、人的习惯、素质等等综合因素形成的一个概率模型。

人生也如是。

一次高考可能发挥不那么好,由985变成了211,但拉长周期来看,生活状态差不多。程维一样创办滴滴。这就是神奇的概率。

要逆天改运,就是改变你的认知模型,你生命的概率函数,多积累正向的因素,终有一天,你会实现自己的梦想。

关于chatGPT

chatGPT火出圈了。

图片

作为业内人士,还是需要关注一下。大家似乎看到了强人工智能的曙光。

AGI是我一直想做的事情,有了可控AGI不需要“天天码字”了。

NLP是AI领域皇冠上的明珠,chatGPT很快就能突破图灵测试了。

关注一些AGI的进展会很有意思。

不过,现在的人工智能同样不是个人或者小团队可以完的事情,海量的数据,天量的算力,以及理论创新来支撑起这样的大模型。

发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/104154
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!

(0)
股市刺客的头像股市刺客
上一篇 2024 年 7 月 29 日
下一篇 2024 年 7 月 29 日

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注