VIME: Extending the Success of Self- and Semi-supervised Learning to Tabular Domain
在这篇文章中，作者提出了新的表格数据自监督与半监督学习框架。对于自监督学习，在特征向量预测器的基础上，作者提出了mask vector estimation+Feature vector estimation。为了解决前置任务，解码器函数学习从无标签的原始特征中构建富含信息的表示。对于半监督学习，作者引入了一种新的表格数据增广模式：使用训练的编码器，通过对于遮掩的数据进行插值来获取多个增广数据。

要点速读

VIME模型主要是提出了在表格数据中使用无标签的数据进行预训练的策略：
Mask Vector Estimation与Feature Vector Estimation：即在无标签的数据中进行污染，然后预测哪个数据遭受污染并预测污染数据的原数据。

Proposed Model: VIME

自监督学习

相较于TabTransformer，VIME对于数据的污染是采用分类数据的分布，这样可以保证对于污染数据的识别有一定难度。
$$\tilde{\mathbf{x}}=g_{m}(\mathbf{x},\mathbf{m})=\mathbf{m}\odot \bar{\mathbf{x}}+(1-\mathbf{m})\odot \mathbf{x}$$
其中$\bar{\mathbf{x}}$取样于实际分布$\hat{p}_{X_{j}}=\frac{1}{N_{u}}\sum_{i=N_{l}+1}^{N_{l}+N_{u}}\delta(x_{j}=x_{i,j})$
接下来，作者将预测原数据的过程分为两步：1. 预测哪个特征被遮掩；2. 预测被遮掩的特征。前者输入嵌入，输出$\hat{\mathbf{m}}$，即预测的遮掩向量；后者输入嵌入，输出$\hat{\mathbf{x}}$，即预测的原特征。最后计算$l_{m}(\mathbf{m},\hat{\mathbf{m}})$与$l_{r}(\mathbf{x},\hat{\mathbf{x}})$作为损失函数进行反向传播。

半监督学习

监督学习部分与普通的监督学习相同：做出预测后计算与真实标签的loss并反向传播。
对于自监督学习，作者使用了一致性正则化：鼓励预测模型在输入被干扰的情况下，依旧返回相似的输出分布。如果使用相对严谨的数学语言，描述如下：
$$
\mathcal{L}_{u}=\mathbb{E}_{\mathbf{x}\sim p_{X}, \mathbf{m}\sim p_{\mathbf{m}},\bar{\mathbf{x}}\sim g_{m}(\mathbf{x},\mathbf{m})}[(f_{e}(\tilde{\mathbf{x}})-f_{e}(\mathbf{x}))^2]
$$
其中$f_{e}=f\circ e$，即预测函数；$\tilde{\mathbf{x}}$为被污染的数据；$\mathbf{x}$为原始数据。也就是说，自监督损失函数是需要保证污染后数据的预测结果和污染前数据的预测结果一致。

Cover image icon by Dewi Sari from Flaticon