非序列化表格数据的自监督学习综述

一. 摘要

自监督学习（SSL）是一种在各个领域中广泛应用的方法，它利用无标签数据来定义预训练任务，以学习上下文化和鲁棒性强的表示。最近，SSL在表格数据领域探索表示学习能力成为一种新趋势。然而，与其他领域不同，表格数据并没有明确的关系用于学习描述性表示，因此更具挑战性。

本文的目标是系统地回顾和总结SSL在非序列表格数据（NS-TD）上的最新进展和挑战。首先，我们给出了NS-TD的正式定义，并解释了与相关研究的关系。然后，我们将SSL方法分为三组：预测性学习、对比性学习和混合学习，并介绍了每个方向中代表性方法的动机和优势。此外，我们还讨论了SSL在非序列表格数据上的应用问题，包括自动数据工程、跨表格迁移性和领域知识集成。为了评估现有表格模型的性能，我们详细介绍了用于NS-TD应用的基准和数据集。最后，我们讨论了SSL在非序列表格数据上面临的挑战，并提出了未来研究的方向。我们希望这篇综述能够鼓励更多关于在表格领域降低进入门槛和改进隐式表格数据基础的研究。

二. 引言

自监督学习（SSL）是一种机器学习方法，它可以在没有标签的数据上进行训练，并学习到有用的表示。与传统的监督学习需要大量标记数据不同，SSL可以通过利用数据内部的相关性来学习上下文信息，从而减少标记数据的需求。SSL在各个领域都取得了很好的效果，包括文本、图像和语音等。它的一个主要优势是可以泛化到不同的任务和未知的数据。通过SSL，我们可以在无标签数据上训练模型，学习到通用的表示，并在各种分类和回归任务中有效地适应。

在表格数据方面，SSL也有着广泛的应用。与其他数据类型不同，表格数据的特点是特征之间没有明确的关系，并且不同的表格数据集可能具有完全不同的结构。因此，SSL在表格数据上的应用更具挑战性。一些研究对于非序列表格数据（NS-TD）的SSL进行了深入研究。这些方法通过多种学习策略，在表格数据中学习上下文信息的表示。它们提供了一种有效的方式来处理只有少量标记数据的情况，并在表格数据的分类和回归任务中取得了很好的结果。

本文对于研究人员和在金融和医疗保健等领域应用表格数据的从业者都有帮助。它介绍了NS-TD的问题，并提出了一种新的SSL分类法。论文详细讨论了三种学习策略的成果、下游任务以及相关代码链接。此外，论文还介绍了现有的基准数据集，并对SSL在表格数据上的未来研究方向进行了展望。

三. 概述

2.1 问题定义

表格数据是由水平行（样本）和垂直列（特征）组成的结构化形式。特征可以是数字、指示器、类别或文本等。表格数据的应用主要分为两类：分类任务和回归任务。对于SSL在表格数据上的应用，目标是构建一个编码器函数，该函数能够从自监督目标中学习上下文化表示，并在下游任务中利用这些表示来预测标签。

2.2 分类法

本文提出了一个新的SSL4NS-TD的分类法，将现有的研究工作分为三个主要的SSL组：

预测学习（Predictive Learning）：这一类方法通过设计预测任务来使模型从原始数据中学习背景知识。这些任务通常涉及从部分损坏或掩蔽的特征中恢复原始特征，以此来学习数据的上下文信息。
对比学习（Contrastive Learning）：对比学习的目标是学习表格领域中实例之间的相似性和差异性。通过最大化相似实例之间的相似性并将不相似的实例区分开，模型能够学习到更为鲁棒的表示。
混合学习（Hybrid Learning）：混合学习结合了预测学习和对比学习的目标，旨在提供一个统一的SSL框架，结合两种学习策略的优势。

下面表格展示了一个代表性SSL4NS-TD算法的分类表格，展示了不同算法、编码器、预训练-微调数据集、下游任务类型、发表场所以及代码链接。

四. 预测学习

当涉及到非序列表格数据（NS-TD）的预测性学习时，我们面临着一个挑战，因为表格中的元素是异质的，彼此之间没有明确的关系。这意味着很难确定表格中的模式或规律。然而，有一些方法可以帮助我们在NS-TD上进行预测性学习。

一种方法是通过对表格中的特征进行掩盖来学习模型。这意味着我们随机地隐藏一些特征，并尝试从其余的已知特征中推断出被隐藏的特征。这样的训练可以帮助模型更好地理解表格中的上下文信息。类似的方法在图像和文本领域已经取得了成功，现在被应用在表格数据上。这些方法使用了不同的技术，如随机掩盖和值替换，或者通过估计被掩盖特征的相关特征来填充掩盖特征。这样的预处理可以帮助模型在下游任务中表现更好。
另一种方法是通过对表格数据进行扰动来学习模型。这意味着我们对表格中的数据进行变换，以生成一些虚拟任务。这些虚拟任务可能与下游任务相关，例如，我们可以使用某列作为标签进行预测。通过这种方式，模型可以从无标签数据中学习到有关下游任务的信息，并在实际任务中进行泛化。这种方法需要一些元学习的框架来生成虚拟任务，并且在少样本的情况下表现良好。
此外，还可以利用预训练的语言模型来处理NS-TD问题。通过将语言模型应用于表格数据，我们可以将其转化为自然语言格式，并利用语言模型在大规模文本数据上的预训练知识。这种方法可以帮助解决特征异质性的问题，并在不同数据集之间传递先前训练的知识。一些方法直接将数值特征视为字符串处理，而其他方法则使用相对大小标记化或随机排列特征顺序来强制模型解释数值特征。

五. 对比学习

最近的一些进展表明，针对非序列表格数据（NS-TD），学习鲁棒的表示是一种常见的方法。这可以通过从不同角度或对相同输入进行不同程度的扰动来实现，其中通过最大化相似实例之间的相似性并拉近不相似实例之间的距离来学习表示。这种方法被称为对比学习。对比学习在计算机视觉和自然语言处理领域取得了成功，并已经尝试应用于表格数据，以学习有效且通用的与任务无关的表示。对比学习的公式可以概括为：

其中φ是一个相似性函数，用于比较两个编码实例之间的相似性，不同的实例以形成负对或与相同实例的变体以形成正对。根据具体任务的要求，可能需要在编码后的表示上应用投影头g。

有几种方法已经被提出来应用对比学习于表格数据。例如，SCARF是一个基于多层感知机的框架，采用两阶段学习策略：对比预训练和有监督微调。它在预训练阶段对输入进行扰动，并通过比较样本和对应样本的变体之间的相似性来学习表示。另一个方法是STab，它旨在引入一种无数据增强的自监督表示学习技术，无需负对。它使用两个基于多层感知机的编码器来编码样本，并通过比较样本之间的负余弦距离来学习相似性。TransTab则通过使用Transformer编码器对表格中的列和单元格进行上下文化处理，并利用基于列的分割视图设计变体的垂直分区对比学习，从而学习可用于跨表格的上下文信息。此外，还有一个基于原型的表格表示学习框架，它通过学习围绕全局数据原型的解耦表示来提供全局原型，并在潜空间中保留原始的不同信息。

六. 混合学习

混合学习是自监督学习（SSL）在非序列表格数据（NS-TD）上的一种策略，它结合了预测学习和对比学习的优势，以期达到更全面的学习效果。

6.1 扰动+对比学习（Perturbation + Contrastive Learning）

一部分工作通过结合扰动和对比学习来提供一种自然的好处，即在不指定表格的显式知识的情况下学习鲁棒表示。这种结合能够捕捉到行、列甚至单元格之间的上下文化关系。

SubTab 通过将表格数据划分为多个可能重叠的子集，并利用对比损失和距离损失来拉近子集中相应样本的距离。它通过向随机列、相邻列的随机区域或样本中的随机特征添加高斯噪声来进行特征的不均匀扰动。SubTab 还引入了一个正则化矩阵与重建损失相结合，以防止相似特征在重建损失中权重过大。

SAINT将样本描述为由相应分类或数值特征组成的序列，并在序列的开头添加一个特殊的[CLS]标记，类似于BERT模型。它通过跨不同行的样本间注意力机制来嵌入分类和数值特征，并预训练一个重建损失和InfoNCE对比损失的组合，同时使用来自嵌入空间的增强。

XTab 是一个通用的表格Transformer预训练模型，它在多样化的跨表数据上进行预训练。该模型灵活地利用现有的编码器主干和自监督策略，如重建损失和对比损失。

6.2 掩蔽+对比学习（Masking + Contrastive Learning）

掩蔽+对比学习部分讨论了如何结合特征掩蔽与对比学习，以利用上游和下游数据目标对齐的优势，同时保持任务不可知的学习策略。DoRA 基于领域知识设计了一个预文本任务，选择样本中的领域特定特征作为自监督标签。它还采用了基于对比学习的策略，根据领域特定特征将不同样本分离开来。Levin et al. (2023)研究引入了一种伪特征方法，该方法能够在预训练阶段预测在上游数据中缺失但在下游数据中存在的特征，并利用了一种类似于Somepalli et al. (2022)的对比预训练策略。Ye et al. (2023)该研究预训练了一个Transformer编码器，使用了2k个高质量的跨表数据集，并采用了掩蔽表建模来学习特征之间的底层关系，并结合了监督对比学习来对具有相同标签的样本进行聚类。
混合学习通过结合不同的学习信号来增强模型的自监督能力。这种方法不仅考虑了预测信号，还利用了基于相似性的功能来共同学习，从而提高了模型在下游任务中的适应性和表现。

七. SSL在非序列表格数据应用中的挑战

表格数据在医学、金融等各个领域具有广泛的实际应用价值。然而，现有的深度学习和机器学习模型在NS-TD应用中存在主要瓶颈，需要大量的标注标签，并且在从已见场景到新场景的泛化方面存在困难。由于SSL4NS-TD可以通过从无标签的表格数据中学习预训练任务而表现出有效的性能，下面展示几个了SSL4NS-TD的应用场景：

自动数据工程：深度学习模型可以减少特征工程的负担，但在处理不平衡、缺失和噪声数据时仍存在挑战。SSL4NS-TD通过在无标签表格数据上学习预训练任务，可以在各种数据情况下保持稳健性能，降低手动成本。
跨表传递性：直接从表格学习表示需要为每个下游数据集训练一个模型，并且在训练和测试数据之间存在严格的特征要求。SSL4NS-TD通过预训练和精细的特征编码，实现了跨表学习表示的能力，可以适应不同问题和低资源场景，减少特征工程的工作量。
领域知识整合：在表格应用中，常常需要结合专业知识来推断结果，例如在医学和金融领域中进行临床试验和房地产市场分析。SSL4NS-TD可以通过设计与下游标签相关的自动生成任务，或利用与领域相关的特征作为预训练任务，提高在特定领域的性能和应用能力。

八. 数据集合测试基准

近年来，针对深度学习方法和基于树的方法在处理表格数据时的优劣进行了一些基准测试。这些测试旨在比较不同算法在各种表格数据集上的表现。其中一些基准测试包括DLBench、MLPCBench、TabularBench、TabZilla和TabPretNet。

DLBench和MLPCBench分别对11个和40个不同的表格数据集进行了评估。它们发现XGBoost在大多数数据集上的性能优于深度学习方法。然而，在一种名为”cocktail” MLPs的方法中，通过改进超参数优化设置，深度学习方法能够超过XGBoost和其他专门设计的深度学习方法。

TabularBench对45个中等大小的数据集进行了分类和回归任务的比较。结果显示，基于树的模型在预测上表现更为一致，而深度学习方法在处理光滑表格决策边界、噪声特征和非旋转不变数据时存在一些问题。

TabZilla对176个分类表格数据集进行了大规模研究。研究发现，CatBoost在整体性能上达到了最先进水平，而TabPFN在小样本数据集上表现出最先进的性能。

TabPretNet提供了1,000个带标签和1,000个无标签的数据集，用于标准化SSL4NS-TD的预训练数据集。

这些基准测试的目的是为研究人员提供一个统一的评估标准，以便设计新的算法来解决不同领域的问题。同时，这些测试也显示了XGBoost和CatBoost在大多数情况下仍然保持着一致的性能，表明它们仍然是具有竞争力的选择。

九. 未来方向

未来有以下几个方向需要进一步研究和解决：

为SSL4NS-TD设计更适合表格数据的方法：虽然已经研究了多种先验任务，但目前还不清楚哪种SSL方法最适合处理表格数据，并且如何确定合适的超参数。这对于工业应用来说尤其重要。
发展基础表格模型：目前基于表格的基础模型还未得到充分研究，主要是由于表格数据的特点复杂多样。尽管已经有一些研究开始从头开始或利用先进的预训练模型对基础表格模型进行探索，但仍有很多空间可以开发一个统一的基础模型，使其在深度学习和机器学习模型中表现更优。
寻找更有效和高效的方法：以前的研究已经证明了在表格数据上开发深度学习模型和应用SSL方法的有效性。然而，基于树的模型由于其出色的性能和较低的计算成本，在许多情况下仍然是竞争力较强的选择。此外，目前的研究主要集中在提高分类问题的性能，而对于更具挑战性的回归问题的研究相对较少。随着更大规模的表格数据和不同模态数据的引入，研究人员相信进一步探索SSL4NS-TD在这些方面的应用，可以为未来开发更强大且可部署的方法提供指导。