从随机森林进化到GBDT,今天来一下lightGBM。
pip install lightGBM即可。
我们使用sklearn的接口,对比随机森林与GBDT。
model = RandomForestRegressor(n_estimators=20, random_state=20, verbose=20, n_jobs=10)
model = GradientBoostingRegressor(
n_estimators=20, random_state=20, verbose=20,
)
都没有调参的情况下:
随机森林的效果要好得多。但二者明显都过拟合了,测试集上的分数是负的。
从特征重要性的筛选看,二者类似,都是那几个因子。就是说因子重要性,在随机森林和梯度提升树二者中是类似的。因子是具备稳定性的。
后面的问题,一是调参,二是如何解决过拟合。
参数重要还是模型重要? 大面上肯定参数重要,但参数确定的情况下,模型也要能发挥出参数的所有能量才行。
目前的一些直观印象,模型的差别没有那么大。如何让模型不过拟合,或者说有效拟合出一定的“规律”,这背后有一个“细思极恐”的事情。也许金融数据——————就没有“规律”呢?当然我们只是希望胜率高一些罢了。
集成学习值得一试,当然可以把SVM之类都纳进来对比一下。集成学习的参数有点多,而SVM之类的相对较少。
这里其实最担心的事情,就是金融数据噪声太大,没有“规律”可以统计和拟合。另外我们可以把label进行分类,把回归问题变成分类问题来预测。bigquant就是这么做的,这一点与qlib不同。
一些思考
今天想到一个事情:我们总在想,如果年少时,一个什么样的决定,不是选择B而是A,现在会不会更好,过上自己梦想中的生活呢。——这种心态常常陷于后悔与自责。
比如当年若是不离开北京;早早结婚买房,若是拿住大公司的期权;若是怎么着。。。会怎么样。
老喻在《人生算法》里讲了一个例子,如果回到过去,你能改变一个城市的事故率嘛?答案是不能。一个城市的事故率是由环境、人的习惯、素质等等综合因素形成的一个概率模型。
人生也如是。
一次高考可能发挥不那么好,由985变成了211,但拉长周期来看,生活状态差不多。程维一样创办滴滴。这就是神奇的概率。
要逆天改运,就是改变你的认知模型,你生命的概率函数,多积累正向的因素,终有一天,你会实现自己的梦想。
关于chatGPT
chatGPT火出圈了。
作为业内人士,还是需要关注一下。大家似乎看到了强人工智能的曙光。
AGI是我一直想做的事情,有了可控AGI不需要“天天码字”了。
NLP是AI领域皇冠上的明珠,chatGPT很快就能突破图灵测试了。
关注一些AGI的进展会很有意思。
不过,现在的人工智能同样不是个人或者小团队可以完的事情,海量的数据,天量的算力,以及理论创新来支撑起这样的大模型。
发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/104154
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!