Tabular-Review-2
A Survey on Self-Supervised Learning for Non-Sequential Tabular Data
自监督学习(Self-Supervised Learn: SSL):SSL在深度学习领域内主要用于基于无标签的数据集来学习富有内涵与鲁棒性的表示。
前置任务(Pretext Task): 为了达到训练任务而设计的间接任务:例如使用AE(Auto-Encoder)对图像进行编码来获取图片的分布,再进行图片的分类。
近期SSL在表格数据中崭露头角,这篇文章主要用于总结近期SSL在非序列表格领域的进展和挑战(SSL4NS-TD)。这里的NS-TD(非序列型表格数据)指的是:数据间无关联,无时间或者其他顺序。作者按照一下顺序安排文章:1. NS-TD的定义,与其他研究的相关性;2. 将方法分为3类:预测学习、对比学习、复合学习。各个方法的出发点和在每个领域内的优势;3. SSL4NS-TD的应用;4. 各个方法的比较;5. SSL4NS-TD的挑战并提出可能的方向。
Introduction
SSL的主要优点就是其能够减少对于大规模数据的标注。SSL不同于传统的使用标签来训练,其通过前置任务学习任务无偏(Task-agnostic)的数据表示,来创造显式(例如预测学习)的或者隐式的标签(对比学习)。模型被期望从无标注的表格数据中学会普适性的表示,并能适应性的应用于下游任务中。总的来说,现有的有关SSL的表格数据技术可分为序列型与非序列型。作者在这篇文章中主要集中于非序列型(SSL4NS-TD)。
Problem Definition of SSL4NS-TD
不同于序列表格数据,非序列表格数据没有一个确定的顺序,在对于NS-TD使用SSL时,首先需要构建一个编码器函数$e: X\to Z$。其中$Z$代表从自监督学习任务中学到的上下文表示(Contextualized representation)。值得注意的是,自监督学习任务中的标签来自于数据本身而不是手动的标注。编码器函数与下游任务的模型结合可以更好的预测结果。
Taxonomy
- SSL4NS-TD的预测学习:最常用的类别,由于特征的异质性,在预测最终结果之前设计预测任务让模型可以学习到原始数据中的背景知识。但是难点在于设计有效的预测前置任务,这些任务需要考虑上游与下游数据集和任务之间的关系。虽然并没有设计预测性前置任务的共识,但是有许多范式被提出:1. 从掩码特征中学习;2. 在潜在空间中进行扰动;3. 利用预训练语言模型的固有能力,
- SSL4NS-TD的对比学习:旨在学习表格数据中样本的相似性与差异性。优点就是提供了一种任务无偏的学习策略,并且可以应用于广泛的下游任务与迁移学习而仅需要少数的标注样本。但是,挑战在于如何规定样本的“远”与”近”。规定方法简要列举如下:1. 基于实例的;2. 基于模型的;3. 基于列特征的;3. 基于潜空间的。
- SSL4NS-TD的复合学习:将以上两种方法结合的学习方法。当前主要有两类方法:1. 扰动+对比学习;2. 掩码+对比学习。
预测学习
这个方法来自于使用于拥有同质性特征的领域的SSL,例如将干扰、旋转、裁剪和引入噪声作为前置任务。表格数据的SSL也是基于以上方法来设计前置任务的。当模型可以通过被遮掩或者污染的数据获取原始数据,那么该模型在下游任务中也是有效的。这里我们可以给出一个概括性的公式:
$$
\begin{aligned}
L_{predictive} &= \psi(g(e(x_{i}^*)), y_{i}^*)\\
x_{i}^* , y_{i}^* &= \delta(x_{i})
\end{aligned}
$$
$\psi$: 损失函数,用于优化转换后的$x_{i}^*$和自监督标签$y_{i}^*$,这两样东西是由$\delta$转化而来。$g$代表将编码器$e$产生的嵌入映射为自监督预测的映射。
从遮掩的特征中学习
遮掩部分特征让模型可以学习到样本的上下文信息,这与下游训练中预测样本对应的类别/样本的值的任务相一致。这种一致为训练好的编码器提供了在下游任务中,从给定样本特征中推理的知识。受启发于MAE(Masked Autoencoder)使用的随机掩码,TabTransformer和VIME将从一个污染的或者遮掩过的数据中还原数据作为前置任务,同时还构建了一个框架来泛化到所有表格数据。其中TabTransformer引入了随机掩码和随机值取代作为转化函数。VIME通过掩码向量估计器来识别被遮掩的特征并同时使用特征向量估计器基于相关的未被遮掩的特征进行插值。举个掩码向量估计器的例子,如果某个特征与和他相关的向量非常不协调,这个特征很可能就是被遮掩的。VIME的二元掩码来自于伯努利分布。
为了鼓励编码器产生更加结构化且有代表性的嵌入,以进一步提高VIME,TabNet设计了一个注意力机制来迭代地选择遮掩特征,让深度学习模型具有可解释性。于可学习的掩码相反。SEFS提出了一种特征子集生成器作为变换函数,来提高遮掩高度相关的特征的概率。SwitchTab在VIME自监督任务的基础上使用了非对称的编码-解码器架构,并提出了一种转移机制来对两个样本进行解耦:每个样本包括有共同信息(每个样本都有的,可交换的)和显著信息(每个样本特有的)。因此,对比的目标就是从共有的信息和独有的信息中获取原始特征。除了这些进展,掩码的占比是难以决定且需要根据任务调整。
潜空间的扰动
为了从表格数据的异质性特征中学习概括性的上下文信息,STUNT从未标记的数据中,“元学习”自己生成的任务,这种想法起源于:列可能与下游的标签有相关性(例如:工作的特征可能与收入有关,并且可以作为收入的替代)。这样一个转化函数遮掩部分特征,然后使用k-means算法产生伪标签。基于元学习的框架,STUNT在小样本表格数据中是高效的。LFR探索了随机映射器在缺少前置知识来增广数据的情况下,学习未标注数据并担任通用框架以合并多模态数据。但是这种方法并没有在有充足前置知识的情况下优秀。
预训练语言模型的固有能力
从另一个角度来解决特征异质性的问题:使用大语言模型作为编码器让知识可以在不同数据集之间迁移。但是难点在于如何将表格数据转化为自然语言的格式,多种预训练的语言模型被应用于表格数据:多个工作直接将数值作为字符串输入,这种方法虽然很直接,但是也有效减轻的预处理的压力。为了让语言模型理解数值变量,TP-BERTa提出了使用相对量纲分词技术(relative magnitude tokenization)通过使用决策树将数值变量分箱来将标量转化为离散的tokens,接着将embedding与原数值相乘来避免大量的值聚集在一块。为了减少特征的顺序偏倚,GReaT将表格和文本使用一个文本编码模式连接并使用随机插入。例如将$\text{age}=26;\text{income}=70$转化为“age is 26, income is 70k”。然后再改变顺序为”income is 70k, age is 26”
对比学习
这些进展的另一个共同主题是,通过同一输入的不同视角或扰动来学习鲁棒的表示,这一目标通过最大化相似实例之间的相似性、并拉远不相似实例之间的距离来实现。对比学习在CV领域和NLP领域获得了极大的成果,在表格数据领域,对比学习被使用来学习高效且泛化性能强的任务无偏的表示。对比学习可以被如下定义:
$$
\begin{aligned}
&L_{contrastive}=\phi(h_{i}, h_{i}^+, h_{j}^-)\
&h_{i}=e(x_{i});h_{i}^+=e(x_{i}^+);h_{j}^-=e(x_{j}^-)
\end{aligned}
$$
其中$\phi$是相似性函数,其比较锚点(anchor: $h_{i}$)、正例(positive: $h_{i}^+$)、反例(negative: $h_{i}^-$)。正例是特定样本锚点通过增广方式产生,负样本是来自于其他样本。正样本对代表相似、负样本对代表不相似。总体上来说,相似函数可以选择余弦相似度、欧几里得距离或者点乘。注意正样本对和负样本对并不是都需要加在loss里面。如果任务需要自监督的标签,则设置在$e$输出后使用的映射头$g$.
SCARF是一个基于MLP的框架,其具有2阶段学习策略:InfoNCE对比预训练和有监督的微调。它加强了多种表格领域的泛化能力。在与训练阶段,其输入会被随机破坏,具体做法是将某部分特征随即替换为对应特征的边缘分布中的随机视图,从而构建正样本对和负样本对。接着,使用InfoNCE相关函数让正样本对更加靠近,负样本对更加远:
$$\phi_{\text{InfoNCE}}(h_{i},h_{i}^+,h_{j}^-)=\log\left( \frac{\exp\left( \frac{h_{i}h_{i}^+}{\tau} \right)}{\sum_{j=1}^N\exp(\frac{h_{i}h_{j}^-}{\tau})} \right)$$
$\tau$为温度参数。
与SCARF相反,STab旨在引入一种不使用增广的自监督表示学习技术,这种技术不需要负样本对。STab将输入样本使用两个MLP编码器,其中一个有一个多出的映射头,两个MLP编码器有相同的权重但是有不同的随机正则化。这可以被看作是一种基于模型的对比学习。然后比较负余弦距离作为相似函数。这两个MLP得出的表示被认为是各自的干扰样本。为了学习可被用于迁移学习、增量学习、零样本推理的上下文信息(表格间的列名是不同的),TransTab将表格中的列和单元格上下文化(例如将gender设置为woman而不是1、2),其使用了Transformer编码器,并在多个表格中使用垂直划分对比学习(Vertical-partition contrastive learning:一种基于列划分表格的对比学习方法)进行预训练。Ye等人提出了一种基于原型的表格数据学习框架,用于围绕全局数据原型学习可解缠的表示。该方法引入全局原型来对抗相似样本,同时在潜在空间中通过多样化约束保留原始的差异性信息。
复合学习
将预测学习和对比学习结合的一种策略。一般来说,使用复合学习模型的方法需要多种映射头来处理不同的前置任务,多个映射头可以被并行使用来保证模型的鲁棒性。复合学习的损失函数如下定义:
$$L_{hybrid}=L_{predictive}+L_{contrastive}$$
多种方法被使用来优化$L_{hybrid}$,包括干扰+对比学习、掩码+对比学习。
干扰+对比学习
干扰+对比学习可以在没有前置知识的前提下,学习到鲁棒性的表示与列、行乃至于单元格之间的上下文关系。除了重建损失函数外,SubTab将表格数据分为多个子集,每个子集有潜在的重叠的列作为不同的视图来进行对比损失和距离损失(类似于图片中的剪切,两种都是让同一个样本的子集更加靠近)。为了不均衡地扰动特征以进行特征重建,SubTab在以下3样东西上通过伯努利掩码加入了高斯噪声:1. 随机列;2. 临近列的随即区域;3. 样本中的随机特征。为了避免相似的特征在重建的损失中权重过大,Chen将损失函数与正则化矩阵结合。在分类标签的辅助下,他们使用了不同的视图进行有监督对比学习来最大化相同类的相似度并使用半监督学习来预训练Transformer模型。
除了在表格数据中使用了Transformer架构,研究者也开始将NS-TD作为token框架化,这在NLP及CV领域非常常用。多种变体被使用来捕捉表格数据中的更细颗粒度的表示(例如单元格级、数值型、类别型特征)。主要的优点就是表示可以在不同的数据集之间共用,并且可以通过自监督机制来建模。SAINT通过一组序列来描述特征,这组序列由数值变量和类别变量对应的部分组合而成,并在开头加上一个[CLS]的特殊token(就像BERT一样)。为了从其他相似的样本中建模不变的细颗粒度特征表示,SAINT将类别变量和数值变量嵌入并通过跨样本注意力机制在不同行间编码,最后使用重建损失和InfoNCE对比损失使用嵌入空间内的增广来进行预训练。
相较于已有工作中使用预训练并在下游数据集中进行微调,另外一个重要的角度是在大量数据集上进行预训练,这提供在下游任务中作为基础模型的能力,就像NLP中的Chatgpt。XTab是一个广义的表格数据Transformer预训练模型,其在大量且多样化的交叉表数据中进行训练,并且足够灵活来使用已有的编码器主干和自监督策略。UniTabE是一个在大规模多领域数据上进行训练的Transformer架构。解码器使用了自由格式和特定任务的提示词和来自编码器的上下文表示,从而能够进行自适应地任务定制化的推理。也就是说,提示词可以被修改来适应特定的下游任务。UniTabE的预训练任务包括了多单元格遮掩来重构样本的部分单元格和对比学习。
掩码+对比学习
相较于干扰留了部分数据信息,掩码直接遮掩了目标特征。为了适应上下游任务中不同的特征,Levin使用了一种基于已有深度表格模型的伪特征方法来进行预训练,并利用了对比预训练策略(就类似于在2k个高质量交叉表数据集中使用遮掩表格来学习特征间的潜在关联和相同类别样本的聚类)。分析得出:预训练为模型提供了相较于树模型更强的迁移能力。与特征无偏的SSL方法相反,DoRA关注于在金融领域基于特定知识设计一个特定的前置任务。它通过在预训练阶段选择领域内特定的特征作为自监督学习的标签,引入了样本内前置任务(例如,预测目标城镇的地理位置)。样本间对比学习则是基于特定知识引入不相似的样本来进行对比学习(例如相同城镇的房子会更加接近)。
SSL4NS-TD的应用
自动数据工程
深度学习缓解了特征工程的压力,但是在各领域稳定的表现依旧是一个挑战,因为数据中存在不平衡、缺失值、噪声数据。Huang证明SSL4NS-TD有在不同领域内保持鲁棒的表现的潜力,这将减少手工标注的小号。Lee使用了门控向量估计来自监督相关特征的选择过程,这可以避免选择冗余的特征并让更有信息的特征被学习。
交叉表迁移性
直接从表格学习表示需要对于每个下游数据集的训练模型,同时在测试数据与训练数据中也有着严格的特征限制。因此如何跨表格学习亟待解决。近期有许多方法实现了迁移性,包括基于PLM来从语义学角度上下文化知识的LIFT, TP-BERTa, GReaT;或者从头开始的细颗粒度特征编码器TransTab, XTab, UniTabE。这些方法证明:使用 SSL4NS-TD 进行预训练在适应增量列(incremental columns)、低资源场景(low-resource scenarios)以及缺失值预测(missing value predictions)方面具有优势。
领域知识融合
表格数据的应用常常需要有专家知识来推测结果,Du发现,使用地理图相关的特征作为前置任务是房产价格预测的重要因素。Nam设计了具有伪标签的自生成任务,该标签与下游标签有显著相关性(例如:通过地理位置和财产多少来估计房产价格类似于通过地理位置和财产来估计租金)。
NS-TD数据集与Benchmarks
TabPFN表现最佳(这里的TabPFN是2023年的v1,2025年的v2准确率更高),其次为SAINT,TabNet,VIME,TransTab.
未来方向
SSL4NS-TD的秘籍
除了已有的对于前置任务的探索:预测学习、对比学习、复合学习。SSL技术主要是来自于NLP与CV领域。目前仍然不清楚哪种SSL技术最佳、如何调超参。目前有一个很有前景的方向:就是如何设计与下游任务相关的前置任务。
基础表格模型的进化
NLP的基础模型得到大大发展,但是基础模型依然未被完全探索。
表格数据持续学习
目前由于不同表格数据多样性与异质性,基础表格模型发展并不成熟。一种可能的方向就是统一表格数据格式,然后使用基础表格模型或者LLM处理。
表格数据的隐私
联邦学习是其中一种解决方法:多个设备和服务器同时训练模型且不共享本地数据,不上传数据,而是上传梯度或者权重。但是,由于上传的数据的质量和分布不一,所以联邦学习也存在问题。
多模态多任务环境中的进展
支持多任务学习能力(multi-task learning)可能有助于表格模型:
在不同任务之间共享知识;
同时以节省内存资源的方式来容纳这些任务。
进一步地,目前大多数的NS-TD方法依然仅关注于基于表格的数据,而忽视了多模态信息融合的潜力。然而,在 顺序表格数据领域(sequential tabular domain) 中,多模态融合(如将物品图片与其元数据结合,用于推荐系统)已经被证明是有效的。
此外,将表格格式的数据转换为文本格式(例如将数值“0”转化为“seen”,将“1”转化为“unseen”)能够利用大型语言模型(LLMs)中的通用知识来学习更丰富的上下文信息。
随着可用于训练的更大规模的表格数据集的增加;以及不同模态信息的融合技术的进步,我们认为:未来在这些方向上深入研究SSL在NS-TD中的应用(即SSL4NS-TD),将有助于开发出更健壮、可部署性更强的学习方法。