Mitra博客阅读
该文章参考Amazon science上博客Mitra: Mixed synthetic priors for enhancing tabular foundation models书写。这篇博客精练而深刻,提出了多条有价值的看法,可供后续科研参考(尤其是表格数据领域)。
TFMs
TFMs,Tabular Foundation Models,受大语言模型启发,是希望训练一个通用语言模型,其可以在给出一定样本的条件下便可适应特定任务,例如ICL(上下文学习)。TFMs包括TabPFN, Mitra。
TabPFN便是其TFMs的一个代表,其第一个版本发表于2023ICLR会议,当时准确率其实并不及传统的表格深度学习模型,但是在2025提出的v2模型一举刊登于Nature,测试效果完全超越v1,由于时间问题,近2年的深度学习模型并没有完全列举于原文,但是实测效果确实极其优秀。TabPFNv2证明了在表格领域内,使用合成的数据训练出的模型效果可以达到SOTA。
但是合成数据训练的模型为何可达到超越传统使用无监督数据预训练后微调的深度表格数据?该博客中便有解释。
Synthetic datasets
不管是TabPFN还是Mitra,其预训练过程均采用合成数据,而非真实世界数据,合成数据的构造依赖于目前已有的多种树学习方法和SCMs以体现大量的数据特征。(数据构造过程极度重要,因此TabPFN并未公开数据构建代码)。
博客中提出,合成数据克服了真实世界数据的多种缺点:异质性、特征多样性、未知的依赖性和噪声。而合成数据在克服以上困难的同时,也可以模仿以上数据特征。
数据构造的重要性方面,作者提出:好的先验(priors,即合成数据)将会产生(1) 下游任务的高准确率;(2) 表现多样性,避免过拟合;(3) 其他先验中未出现的独特数据特征。
同时,Mitra在构建过程中借鉴了多种树学习方法,例如XGBoost, Random Forests, decision trees…这是否意味着,树学习所能揭示的非线性相关性对于TabPFN和Mitra均可轻易完成?如果确实如此,那对于已有TFMs的改进可能需要非以上树模型的模型来引入新的非线性相关性。
总结
TFMs在表格领域的卓越表现再次证明了“大模型”的有效性。Mitra作为与TabPFNv2类似的模型,排名有所提升,但是AUC、ACC、CE指标提升并无显著性。