量化
-
梯度提升算法的进化之路
梯度提升算法是一种集成学习算法,旨在通过组合多个弱分类器来构建一个更加准确和稳定的分类器。梯度提升算法和决策树算法是密切相关的。在梯度提升算法中,使用的基本分类器通常是决策树,因此…
-
[ML]TabPFN: 一种基于因果推理的先验数据拟合分类算法
一 本文简介 本文介绍了一种名为TabPFN的方法,适用于小型表格分类任务。该方法使用Transformer来特征化数据集,并且可以通过网络向前传递一次学习,而无需反向传播。此外,…
-
缓解机器学习模型过拟合的13种方法
什么是过拟合? 过拟合(overfitting )往往发生在模型过于复杂的情况下。当一个模型出现过度拟合时,它会试图通过记忆训练数据来达到更高的准确率,而不是从数据中学习基本的模式…
-
[ML-论文解读]STUNT:通过自动生成任务提高小样本表格任务学习性能
一 本文概要 在很多现实机器学习应用中,小样本的表格任务是很常见的,这是因为标注的成本很高或很难收集新的样本。虽然小样本学习已经是一个研究领域已有一段时间了,但主要的研究工作都集中…
-
GATE:高效处理表格数据的深度学习架构
一 本文概要 虽然深度学习在图像、音频和文本等同质数据领域取得了显著的成果,但对于表格数据而言,这种技术的表现并不是最佳的。目前,浅层模型(如梯度提升决策树)被认为是处理表格数据的…
-
为什么基于树的模型在表格数据任务中比深度学习更优?
虽然深度学习在计算机视觉、自然语言处理等领域取得了显著的成果,但在处理表格数据任务方面,深度学习模型的表现并不如树模型。大多数从业人员和数据科学竞赛仍然倾向于使用树模型处理表格数据…
-
[ML]tsfresh:时序数据特征自动提取工具
tsfresh是什么 tsfresh 是一个用于时间序列特征生成的python包。使用tsfresh可以自动计算出大量的时间序列特征,tsfresh还内置有特征筛选算法可以挑选出和…
-
[ML]ESCP:让策略快速感知并适应环境变化
一 本文简介 现实世界的任务环境可能会发生突然的变化,通常我们期望可以存在一种方法能够快速的适应环境变化。本文提出了一种环境敏感的上下文策略学习方法(ESCP)方法来对环境编码,通…
-
ydata-profiling: 一行代码就可以自动生成数据分析报告
数据挖掘的第一步通常是进行数据探索性分析(EDA),以理解和探索正在解决的问题的数据。通过EDA, 我们可以分析数据集,了解变量间的相互关系以及变量与预测值之间的关系,帮助后期更好…
-
[ML]CausalAI:无需写代码也可进行数据因果分析的工具
1. 工具简介 Salesforce CausalAI 是一个Python实现的数据因果分析工具,支持对表格和时间序列数据等数据进行因果分析,支持离散和连续的数据类型。Salesf…
-
[ML]OpenFE: 开源的高性能特征自动生成器,生成与机器学习专家相媲美的特征
一 论文概要 表格类数据处理是指针对二维表格形式的数据处理任务,传统机器学习所针对的分类、聚类、回归等都是这种形式的数据处理。该类数据也常见于各类算法任务和机器学习竞赛,如Kagg…
-
代替Git进行机器学习实验管理的工具推荐
机器学习从业者通常通过实验算法、数据和超参数来开发新的机器学习模型。随着实验和项目规模的不断扩大,特别是在大中型企业中,越来越多的模型需要进行有效管理,上图展示了在谷歌中人工智能相…