TabPFNv2微调研究
原文章地址On Finetuning Tabular Foundation Models 要点速递这篇文章主要讲述了对于TabPFNv2的微调策略,其中全量微调最为有效,同时分析了微调为何有效的原因:作者认为微调有效是因为微调过程中让模型更加容易注意到有效的同类样本,从而提升模型准确率。 TabPFNv2 微调策略评价Protocol我们在两个成熟的表格数据DL benchmarks上进行测试,我们只使用能够完全输入TabPFNv2的数据集。相较于之前的比较,我们的此次比较数据集更大且加入了更多强有力的深度学习模型。对于所有的TabPFNv2微调,我们在验证集上使用具有10个学习率的logspace(5e-4, 5e-6)进行测试。对于其他的baseline,我们则使用超参数grids进行调参,并进行100次迭代。作者使用1024个样本进行梯度更新,其余样本作为输入。对于早停策略,作者在验证集上每隔10个梯度更新步进行一次表现效果的计算并在16个无提升的评估后停止微调。作者使用RMSE和分类准确率作为回归与分类的对应指标。作者使用了相对于MLP的相对提升指标。 Full fine...
Attic速读(ICLR under review, 2025)
作者在TabPFN的基础上作出了一个改进,准确率相较于TabPFN有相对较大的提升。相较于TabPFN对每个样本给出一个token,Attic选择将样本中每个特征均给出一个token,这在一定程度上解决了TabPFN所出现的“特征顺序不变性”的问题,提升了表格深度学习模型表现。 要点速递 Cell Tokens:即对于每个样本的每个特征均给出一个tokens,该想法并非作者独创,于SAINT(2021, NeurIPS Workshop)中便提及并使用,同时对于每个特征给出tokens(FT-Transformer, 2021, NeurIPS)和对于每个样本(TabPFN, 2023, ICLR)给出tokens的想法也均在之前的论文中提出并实践。但是并没有哪个方法格外优秀,这次作者的尝试证明使用单元格级别的tokens可以更加有效捕捉合成数据的相关性。 模型精度:作者尝试选用float16取代bfloat16,但是在预训练中失败了。float16代表更高精度和更小的范围,而bfloat16有精度较低而范围大。作者选择float16的原因很简单,高精度模型的测试确实准确率更高,...
Mitra博客阅读
该文章参考Amazon science上博客Mitra: Mixed synthetic priors for enhancing tabular foundation models书写。这篇博客精练而深刻,提出了多条有价值的看法,可供后续科研参考(尤其是表格数据领域)。 TFMsTFMs,Tabular Foundation Models,受大语言模型启发,是希望训练一个通用语言模型,其可以在给出一定样本的条件下便可适应特定任务,例如ICL(上下文学习)。TFMs包括TabPFN, Mitra。TabPFN便是其TFMs的一个代表,其第一个版本发表于2023ICLR会议,当时准确率其实并不及传统的表格深度学习模型,但是在2025提出的v2模型一举刊登于Nature,测试效果完全超越v1,由于时间问题,近2年的深度学习模型并没有完全列举于原文,但是实测效果确实极其优秀。TabPFNv2证明了在表格领域内,使用合成的数据训练出的模型效果可以达到SOTA。但是合成数据训练的模型为何可达到超越传统使用无监督数据预训练后微调的深度表格数据?该博客中便有解释。 Synthetic data...
LFR论文速读(ICLR, 2024)
LFR(ICLR, 2024),有源码自监督表示学习基于变换不变性假设,使用人工设计的数据增广策略获得了极大提升,但是提升主要集中于视觉和自然语言处理领域,在其他数据模态中并没有直接的应用,甚至可能与特定应用的数据增强约束相悖(application-specific data augmentation constraints: 部分任务不能应用所有增广策略,例如医学图像处理不能左右翻转或者随意改变色彩)。这篇文章展示了一个可被用于任何模态的SSRL(Self-supervised representation learning)策略,因为这种方法并不进行任何增广或者掩码。特别的,它证明高质量的数据表征可以通过重构随机的数据投影获取。作者在一系列表示学习任务上评价了这种方法,发现其优于多个SSRL的SOTA。 要点速递 E-M法更新模型:依次更新主干网络和分类头网络,并且更新次数不相同,让分类头充分训练可以让其充分发挥主干网络提取表示的能力。 batch-wise Barlow Twins:让同一个样本的不同增强版本在特征空间中尽可能相似(invariant),同时鼓励特征向量的...
STUNT论文速读(ICLR, 2023)
STUNT: FEW-SHOT TABULAR LEARNING WITH SELF-GENERATED TASKS FROM UNLABELED TABLES(ICLR, 2023).有源代码。在这偏文章中,作者提出了一种简单但是高效的小样本半监督表格学习框架:Self-generated Tasks from UNlabeled Tables(STUNT)。我们的主要想法是:通过将多个选中的列作为标签自己产生多种小样本任务。然后使用元学习模式通过构建的任务来学习泛化的知识。另外,通过使用STUNT从无标签数据中产生伪验证集,我们引入无监督的验证模式来进行超参数研究。 重点速递这篇文章是一个相对细分的领域:表格数据中的半监督小样本学习(semi-supervised few-shot tabular data learning)。ProtoNet:原型网络,通过计算一个类别的原型(可以是一个类别的均值)。然后计算原型到样本的距离来分类(k-means?)。小样本学习架构:小样本学习一般记作N-way K-shot代表有N个类别,每个类别内有K个样本的情况,例如5-way 1-s...
SwitchTab论文速读(AAAI, 2024)
SwitchTab(AAAI, 2024)无源码SwitchTab利用非对称编码器-解码器框架来解耦数据对中相互和独特的特征,并最终获得更加具有代表性的嵌入。这些嵌入推动了一个更加好的决策边界并提高了下游任务的表现效果。另外,预训练的独特的嵌入可以作为“即插即用”的特征在传统分类模型中使用。最后,SwitchTab具有可以通过解耦的相互和独特特征的可视化来产生可解释性的表示。SwitchTab的核心在于:一个非对称的编码器-解码器架构,通过可使特征解耦合的定制映射器进行增广。这个过程从将每个样本编码为一个广义的嵌入,到将其映射为相互的和独有的嵌入。该模型的另一个优点就是它的多面性,其使用了自监督方法训练。这个适应性保证了SwitchTab在多个训练领域内表现优异,不管数据是否有监督。 要点速递原作者无开源代码,模型准确性存疑,但是作者均为Amazon单位,模型最大的创新点在于特征解耦(类似PNPNet,可参考之前推文)。PNPNet主要学习周期性数据中的周期性内容(傅里叶网络),非周期数据中的非周期内容(切比雪夫网络);SwitchNet则是对于所有数据均采用相同的提取策略提取共...
VIME论文速读(NeurIPS, 2020)
VIME: Extending the Success of Self- and Semi-supervised Learning to Tabular Domain在这篇文章中,作者提出了新的表格数据自监督与半监督学习框架。对于自监督学习,在特征向量预测器的基础上,作者提出了mask vector estimation+Feature vector estimation。为了解决前置任务,解码器函数学习从无标签的原始特征中构建富含信息的表示。对于半监督学习,作者引入了一种新的表格数据增广模式:使用训练的编码器,通过对于遮掩的数据进行插值来获取多个增广数据。 要点速读VIME模型主要是提出了在表格数据中使用无标签的数据进行预训练的策略:Mask Vector Estimation与Feature Vector Estimation:即在无标签的数据中进行污染,然后预测哪个数据遭受污染并预测污染数据的原数据。 Proposed Model: VIME自监督学习相较于TabTransformer,VIME对于数据的污染是采用分类数据的分布,这样可以保证对于污染数据的识别有一定难度。$...
TabTransformer论文速读(2020)
TabTransformer是基于Transformer架构构建的表格学习深度模型。它主要将类别变量转化为上下文嵌入,同时发现这样产生的嵌入对于缺失数据具有良好的鲁棒性与可解释性。最后作者提出一种半监督预训练方法。这篇文章发表于2020年,当时的SOTA还是MLP,深度学习还远远比不上树模型,TabTransformer有隐隐赶上树模型的趋势。 重点速递TabTransformer主要在表格数据领域中使用了特殊的预训练流程。MLM:对于数据进行遮掩,然后预测遮掩部分数据来进行预训练。RTD:将部分数据赋予随机值,然后设计二分类分类器来识别随机数据进行预训练。 模型架构TabTransformer包括有一个列嵌入层、N个Tranformer层和一个MLP层。$(\boldsymbol{x},y)$表示一个特征-标签对,其中$\boldsymbol{x}={\boldsymbol{x}_{cat},\boldsymbol{x}_{cont}}$前者代表类别变量$\boldsymbol{x}_\text{cat}={x_{1},x_{2},\dots,x_{m}}$...
Tabular-Review-2
A Survey on Self-Supervised Learning for Non-Sequential Tabular Data自监督学习(Self-Supervised Learn: SSL):SSL在深度学习领域内主要用于基于无标签的数据集来学习富有内涵与鲁棒性的表示。前置任务(Pretext Task): 为了达到训练任务而设计的间接任务:例如使用AE(Auto-Encoder)对图像进行编码来获取图片的分布,再进行图片的分类。近期SSL在表格数据中崭露头角,这篇文章主要用于总结近期SSL在非序列表格领域的进展和挑战(SSL4NS-TD)。这里的NS-TD(非序列型表格数据)指的是:数据间无关联,无时间或者其他顺序。作者按照一下顺序安排文章:1. NS-TD的定义,与其他研究的相关性;2. 将方法分为3类:预测学习、对比学习、复合学习。各个方法的出发点和在每个领域内的优势;3. SSL4NS-TD的应用;4. 各个方法的比较;5. SSL4NS-TD的挑战并提出可能的方向。 IntroductionSSL的主要优点就是其能够减少对于大规模数据的标注。SSL不同于传统...
markdown中的数学公式
MathJax解析与Hexo冲突转义Hexo 中如需使用公式,需在 Markdown 开头需附上mathjax:true(如NexT主题)或math:true(如Fuild主题)。 一行 MathJax 公式中出现多个_{\rm a}_b{\rm a}_b: ${\rm a}{b}{\rm a}{b}${\rm a}\_b{\rm a}\b: ${\rm a}_b{\rm a}_b$欲显示Pax_Romana: $Pax_Romana$Pax\_Romana: $Pax\_Romana$欲换行:a\b\c:$a\b\c$a\\b\\c:$a\\b\\c$ 参考MathJax数学符号支持 Cover image icon by Dewi Sari from Flaticon