大模型技术在表格数据任务上的应用进展

论文 | Meta contrastive label correction for financial time series

表格任务是指涉及处理和理解结构化表格数据的任务。表格通常由行和列组成，每个单元格包含特定的数据。表格任务可以包括表格理解、表格填充、表格转换等。金融领域涉及大量的结构化数据，包括财务报表、交易数据、市场数据等，这些数据通常以表格的形式进行组织和呈现。

大模型技术指的是使用深度学习中的大型神经网络模型，如GPT-4等。这些模型具有数十亿甚至上百亿个参数，通过在大规模数据上进行训练，能够学习到丰富的语言和语义知识，并具备强大的语言生成和理解能力。

下面列出一些大模型技术在表格任务上的最新论文，用于展示该领域的最新进展：

TabLLM: Few-shot Classification of Tabular Data with Large Language Models

论文：https://arxiv.org/abs/2210.10723

代码：https://github.com/clinicalml/TabLLM

这篇论文介绍了一种利用大型语言模型（LLM）改善表格任务的方法。传统的表格任务通常使用梯度提升树等方法，但这种方法在处理少样本情况下效果有限。因此，研究人员提出了一种名为TabLLM的新框架。

TabLLM框架利用了大型语言模型的强大能力。首先，将表格数据转化为自然语言字符串的序列化形式，并提供一个简短的问题描述。然后，将这些信息输入到LLM中进行处理。在少样本情况下，研究人员使用少量有标记的样本对LLM进行微调，以提高其分类性能。通过实验证明，TabLLM在多个基准数据集上表现优于之前的深度学习方法。甚至在没有任何标记样本的情况下，TabLLM也能取得不错的分类结果，这得益于LLM中编码的先前知识的利用。此外，与传统的梯度提升树方法相比，在处理很少的标记样本时，TabLLM方法也具有竞争力甚至更好的表现。

这篇论文的主要贡献是引入了TabLLM框架，通过利用大型语言模型的先前知识，改善了表格任务的零样本和少样本分类性能。

Trompt: Towards a Better Deep Neural Network for Tabular Data

论文：https://arxiv.org/abs/2305.18446
这篇论文介绍了一种名为”Trompt”的新型架构，旨在利用大型模型技术改善表格任务的性能。表格数据在各个领域中被广泛使用，但是传统的深度神经网络在处理表格数据时效果不如基于树的模型。为了解决这个问题，研究人员设计了Trompt架构，受到语言模型中的提示学习方法的启发。

Trompt架构将表格数据的学习策略分为两个部分：表格的内在信息和样本之间的变化信息。它利用大型模型来处理表格数据，并通过提示学习的方式指导模型进行分类。与传统的深度神经网络相比，Trompt在处理表格数据时表现更好。

研究人员通过在一个公认的表格基准数据集上进行实验，评估了Trompt架构的性能。实验结果表明，Trompt优于目前最先进的深度神经网络，并且与基于树的模型相媲美。这篇论文的主要贡献是引入了Trompt架构，它利用大型模型技术改善了表格任务的性能，并为未来在表格神经网络架构设计方面提供了有价值的见解。

TabPFN: A Transformer That Solves Small Tabular Classification Problems In A Second

论文：https://arxiv.org/abs/2207.01848

代码：https://github.com/automl/TabPFN
这篇论文介绍了一种利用大型模型技术改善表格任务的新方法，称为TabPFN。该方法使用了一种经过训练的Transformer模型，可以在不到一秒钟的时间内解决小型的表格分类问题。TabPFN的关键创新在于它完全依赖于网络的权重，并且通过离线训练一次来近似贝叶斯推理。为了代表先验知识，研究人员使用了合成数据集，并将因果推理的思想融入到先验中，同时偏好简单的结构。实验结果显示，TabPFN在小型表格数据集上的性能超过了提升树模型，并与复杂的自动机器学习系统表现相媲美。

论文详细介绍了TabPFN的架构和训练方法，并呈现了实验证明其性能的结果。这项研究的贡献在于引入了TabPFN这一的方法，通过预训练的Transformer模型，取代了传统的模型拟合步骤。TabPFN通过离线训练一次，能够在极短的时间内解决小型表格分类问题。同时，TabPFN利用了因果推理和简单结构的先验知识，使其具备了竞争力的性能。实验结果证明了TabPFN优于提升树模型，并可与复杂的自动机器学习系统媲美。此外，TabPFN在使用GPU时还能够实现显著的计算加速。

AnyPredict: Foundation Model for Tabular Prediction

论文：https://arxiv.org/abs/2305.12081

这篇论文介绍了一种名为”AnyPredict: Foundation Model for Tabular Prediction”的方法，旨在利用大型模型技术改善表格预测任务。AnyPredict是一种基础模型构建方法，它解决了在表格预测中的几个挑战。这些挑战包括缺乏大规模和多样化的带有标准化标签的表格数据集，以及跨领域的模式不匹配和预测目标的异质性。

为了解决这些挑战，研究人员提出了AnyPredict方法。该方法利用数据引擎和大型语言模型（LLMs），将表格样本整合并将来自其他领域的数据与目标任务对齐。通过这种方式，预训练的AnyPredict模型在不进行微调的情况下，可以适应领域内的每个表格数据集，从而显著提升了性能，超过了监督基线模型。

该论文的关键观点是，基础模型在自然语言处理和计算机视觉领域取得成功，但在表格预测任务中存在限制。AnyPredict方法通过利用数据引擎和大型语言模型，克服了缺乏标准化数据集和跨领域模式不匹配的问题。它能够适应不同的表格数据集，并展现出令人印象深刻的零样本性能，优于监督的XGBoost模型。通过解决这些挑战，AnyPredict为改进表格预测任务提供了一种有效的方法。

Generative Table Pre-training Empowers Models for Tabular Prediction

论文：https://arxiv.org/abs/2305.09696

代码：https://github.com/ZhangTP1996/TapTap
这篇论文介绍了一种名为TAPTAP的方法，旨在利用表格预训练技术改善表格预测模型。研究人员提出了一种创新的方法，利用生成式语言模型在大规模真实世界的表格数据上进行预训练，并在具体的表格任务上进行微调。TAPTAP能够生成高质量的合成表格，支持多种表格数据应用，例如隐私保护、低资源环境、缺失值填充和非平衡分类。实验结果表明，TAPTAP在12个数据集上的性能超过了16个基准模型，在不同的场景下都表现出色，并且可以与不同的基础模型结合使用。这为表格预测任务提供了一种有效的解决方案，并为该方法提供了全面的评估标准。

论文的贡献包括成功将表格预训练应用于表格预测任务，并构建了一个大规模的预训练语料库。同时，研究人员还展示了TAPTAP在各种应用场景下的有效性。这项研究为改进表格预测模型提供了重要的思路和方法。

综上所述，将大模型技术应用到表格任务中可以提供更好的上下文理解、自动特征学习和更高的准确性和泛化能力，从而加快表格处理的速度和提高结果的质量。金融领域涉及大量的结构化数据，包括财务报表、交易数据、市场数据等，这些数据通常以表格的形式进行组织和呈现。通过深入研究大模型技术在表格任务上的应用进展，并将其应用于金融任务预测中，可以提供更准确和可靠的预测结果。这有助于金融从业者、投资者和决策者做出更明智的投资决策，改善风险管理，并为金融市场的发展和稳定做出贡献。

发布者：股市刺客，转载请注明出处：https://www.95sca.cn/archives/111102
站内所有文章皆来自网络转载或读者投稿，请勿用于商业用途。如有侵权、不妥之处，请联系站长并出示版权证明以便删除。敬请谅解！