AI量化：从随机森林到GBDT(lightGBM)以及一些思考

从随机森林进化到GBDT，今天来一下lightGBM。

pip install lightGBM即可。

我们使用sklearn的接口，对比随机森林与GBDT。

model = RandomForestRegressor(n_estimators=20, random_state=20, verbose=20, n_jobs=10)


model = GradientBoostingRegressor(
    n_estimators=20, random_state=20, verbose=20,
                    )

都没有调参的情况下：

随机森林的效果要好得多。但二者明显都过拟合了，测试集上的分数是负的。

从特征重要性的筛选看，二者类似，都是那几个因子。就是说因子重要性，在随机森林和梯度提升树二者中是类似的。因子是具备稳定性的。

后面的问题，一是调参，二是如何解决过拟合。

参数重要还是模型重要？大面上肯定参数重要，但参数确定的情况下，模型也要能发挥出参数的所有能量才行。

目前的一些直观印象，模型的差别没有那么大。如何让模型不过拟合，或者说有效拟合出一定的“规律”，这背后有一个“细思极恐”的事情。也许金融数据——————就没有“规律”呢？当然我们只是希望胜率高一些罢了。

集成学习值得一试，当然可以把SVM之类都纳进来对比一下。集成学习的参数有点多，而SVM之类的相对较少。

这里其实最担心的事情，就是金融数据噪声太大，没有“规律”可以统计和拟合。另外我们可以把label进行分类，把回归问题变成分类问题来预测。bigquant就是这么做的，这一点与qlib不同。

一些思考

今天想到一个事情：我们总在想，如果年少时，一个什么样的决定，不是选择B而是A，现在会不会更好，过上自己梦想中的生活呢。——这种心态常常陷于后悔与自责。

比如当年若是不离开北京；早早结婚买房，若是拿住大公司的期权；若是怎么着。。。会怎么样。

老喻在《人生算法》里讲了一个例子，如果回到过去，你能改变一个城市的事故率嘛？答案是不能。一个城市的事故率是由环境、人的习惯、素质等等综合因素形成的一个概率模型。

人生也如是。

一次高考可能发挥不那么好，由985变成了211，但拉长周期来看，生活状态差不多。程维一样创办滴滴。这就是神奇的概率。

要逆天改运，就是改变你的认知模型，你生命的概率函数，多积累正向的因素，终有一天，你会实现自己的梦想。

关于chatGPT

chatGPT火出圈了。

作为业内人士，还是需要关注一下。大家似乎看到了强人工智能的曙光。

AGI是我一直想做的事情，有了可控AGI不需要“天天码字”了。

NLP是AI领域皇冠上的明珠，chatGPT很快就能突破图灵测试了。

关注一些AGI的进展会很有意思。

不过，现在的人工智能同样不是个人或者小团队可以完的事情，海量的数据，天量的算力，以及理论创新来支撑起这样的大模型。

发布者：股市刺客，转载请注明出处：https://www.95sca.cn/archives/104154
站内所有文章皆来自网络转载或读者投稿，请勿用于商业用途。如有侵权、不妥之处，请联系站长并出示版权证明以便删除。敬请谅解！

AI量化：从随机森林到GBDT(lightGBM)以及一些思考

相关推荐

发表回复