Evanescence's Blog

MSHTrans代码阅读与模块解读(KDD, 2025)

发表于2025-12-15|机器学习

深度学习代码一般有一个固定的架构，所以在阅读过程中常遵循一个固定的顺序，故我在该文章中将简单总结阅读深度学习代码的经验并以MSHTrans为例子来进行阅读。深度学习代码常见文件及代码架构在进入github仓库后，我们常见到多个文件，哪个文件重要、哪个文件不重要、首先阅读哪个文件、哪个文件只是简单的配置文件。初学者正是因为这些问题没有搞清楚，所以在开始学习的时候常常抓瞎，进而影响学习效率。MSHTrans仓库是一个很好的例子，因为MSHTrans的代码内只包括最基本、最重要的文件。 README.md: 项目的说明文件，类似说明书，打开仓库时最先看到的文件，也是最先阅读的文件。里面包括了代码的作用、文献、使用方式。 requirements.txt: 模型使用环境内的包，使用”pip install -r requirements.txt”安装依赖包 main.py: 启动模型的代码，该代码一般名称为”main.py”，当然也有其他名称，例如”go.py”。 common, experimental_results, networks, scripts: 剩余文件夹主要为模型相...

torch geometric学习笔记2(MessagePassing)

发表于2025-12-15|机器学习

torch_geometric官方教程该笔记主要参考：Creating Message Passing Networks — pytorch_geometric documentationMessagePassing功能是图神经网络区别于其他网络的重要部分，其给图神经网络提供了一种信息传递的功能，从某种程度上讲，MessagePassing就是一种特殊的卷积操作，让不同节点的数据相互交流。将卷积操作泛化到不规则的域被称为聚合或者信息传递。对于$\mathbf{x}_{i}^{(k-1)}\in \mathbb{R}^F$，其代表k-1层的节点 i .$\mathbf{e}_{j,i}\in \mathbb{R}^D$代表从节点 j 到节点 i 的边。信息传递可以表示为如下：$$\mathbf{x}_{i}^{(k)}=\gamma^{(k)}\left(\mathbf{x}_{i}^{(k-1)}, \bigoplus_{j \in \mathcal{N}(i)} \phi^{(k)}\left(\mathbf{x}_{i}^{(k-1)}, \mathbf{x}_{j...

PLR嵌入策略论文速递(NeurIPS, 2022)

发表于2025-12-15|机器学习

原文地址：OnEmbeddings for Numerical Features in Tabular Deep Learning作者在这篇文章中主要探讨两种构建嵌入模块的不同方法：第一种方法为基于分段线性（PieceWise）的的标量编码；第二种方法使用了周期性的激活函数。作者证明这两种方法相较于传统的线性层和ReLU激活函数。作者同时证明了数值嵌入策略不仅仅对于Transformer架构有利，也对于MLP模型有利，且可以让其能力与基于注意力的模型相匹敌。作者的工作可以简单概括：1. 证明了数值特征的嵌入方法是深度表格领域内一个待研究的领域，即证明了更加具有表示性的嵌入框架可以提供更好的效果；2. 证明了这种嵌入策略的优势不仅仅局限于Transformer架构，同时也可以提升传统架构的效果；3. 实现了SOTA。相关工作Feature binning分箱(binning)是一个离散化的策略，其将数值特征转化为类别特征。初始的数值特征就被替换为对应箱的离散的表示。在这篇文章中，作者使用了不同的分箱策略，特别地，作者使用了他们的边来构建一个无损失的初始标量的分段线性表示。最终结果...

torch geometric学习笔记1

发表于2025-11-28|机器学习

原教程参考：torch_geometric官方教程 Basic property of dataset123from torch_geometric.datasets import TUDatasetdataset = TUDataset(root='D:/data', name='ENZYMES', use_node_attr = True) 上图下载并读取名为”ENZYMES”的数据集，数据集中具体的属性大小与内容如下所示： 12345dataset>>> ENZYMES(600)dataset[0]>>> Data(edge_index=[2, 168], x=[37, 21], y=[1]) “ENZYMES(600)”代表共有600个样本，edge_index代表节点与节点之间的连接关系，同列的两个节点相互连接，有向图代表共有168条边，如果为无向图，则共有168/2条边。x代表每个节点的属性，共有37个节点，每个节点有21个特征。y代表图的结果。 Mini-batchesPyG通过将...

TabM论文速读(ICLR, 2025)

发表于2025-10-24|机器学习

TabM: Advancing Tabular Deep Learning With Parameter-Efficient Ensembling” (ICLR 2025)有源码目前的表格深度学习SOTA(2025) 主要贡献： TabM一个简单的深度表格学习框架，其基于MLP和与BatchEnsemble紧密相关的参数高效的集成方法。TabM对于每个样本将会产生多个预测结果。TabM可以与GBDT竞争并且超过了之前的表格深度模型，并且比基于注意力和检索的深度学习模型更加高效我们提出了4个评价指标：表现排名、表现评分分布、训练实践、推理吞吐量。作者发现MLP，包括TabM达到了效率和效果之间的均衡，这对于基于注意力和检索的模型来说并非如此。作者发现TabM的高效主要源自两个主要原因：1. 底层隐式的MLP集体训练；2. 权重共享。同时作者也发现，对于有多种预测结果的任务，TabM相对薄弱且容易过拟合。 TabM在这一部分，作者展示了TabM PRELIMINARIES符号表示N代表depth，即块的数目；d代表width，即潜在表示的维度。$d_{y}\in \mathb...

TabPFNv2微调研究

发表于2025-10-09|机器学习

原文章地址On Finetuning Tabular Foundation Models 要点速递这篇文章主要讲述了对于TabPFNv2的微调策略，其中全量微调最为有效，同时分析了微调为何有效的原因：作者认为微调有效是因为微调过程中让模型更加容易注意到有效的同类样本，从而提升模型准确率。 TabPFNv2 微调策略评价Protocol我们在两个成熟的表格数据DL benchmarks上进行测试，我们只使用能够完全输入TabPFNv2的数据集。相较于之前的比较，我们的此次比较数据集更大且加入了更多强有力的深度学习模型。对于所有的TabPFNv2微调，我们在验证集上使用具有10个学习率的logspace(5e-4, 5e-6)进行测试。对于其他的baseline，我们则使用超参数grids进行调参，并进行100次迭代。作者使用1024个样本进行梯度更新，其余样本作为输入。对于早停策略，作者在验证集上每隔10个梯度更新步进行一次表现效果的计算并在16个无提升的评估后停止微调。作者使用RMSE和分类准确率作为回归与分类的对应指标。作者使用了相对于MLP的相对提升指标。 Full fine...

Attic速读(ICLR under review, 2025)

发表于2025-09-21|机器学习

作者在TabPFN的基础上作出了一个改进，准确率相较于TabPFN有相对较大的提升。相较于TabPFN对每个样本给出一个token，Attic选择将样本中每个特征均给出一个token，这在一定程度上解决了TabPFN所出现的“特征顺序不变性”的问题，提升了表格深度学习模型表现。要点速递 Cell Tokens：即对于每个样本的每个特征均给出一个tokens，该想法并非作者独创，于SAINT(2021, NeurIPS Workshop)中便提及并使用，同时对于每个特征给出tokens(FT-Transformer, 2021, NeurIPS)和对于每个样本(TabPFN, 2023, ICLR)给出tokens的想法也均在之前的论文中提出并实践。但是并没有哪个方法格外优秀，这次作者的尝试证明使用单元格级别的tokens可以更加有效捕捉合成数据的相关性。模型精度：作者尝试选用float16取代bfloat16，但是在预训练中失败了。float16代表更高精度和更小的范围，而bfloat16有精度较低而范围大。作者选择float16的原因很简单，高精度模型的测试确实准确率更高，...

Mitra博客阅读

发表于2025-09-21|机器学习

该文章参考Amazon science上博客Mitra: Mixed synthetic priors for enhancing tabular foundation models书写。这篇博客精练而深刻，提出了多条有价值的看法，可供后续科研参考(尤其是表格数据领域)。 TFMsTFMs，Tabular Foundation Models，受大语言模型启发，是希望训练一个通用语言模型，其可以在给出一定样本的条件下便可适应特定任务，例如ICL(上下文学习)。TFMs包括TabPFN, Mitra。TabPFN便是其TFMs的一个代表，其第一个版本发表于2023ICLR会议，当时准确率其实并不及传统的表格深度学习模型，但是在2025提出的v2模型一举刊登于Nature，测试效果完全超越v1，由于时间问题，近2年的深度学习模型并没有完全列举于原文，但是实测效果确实极其优秀。TabPFNv2证明了在表格领域内，使用合成的数据训练出的模型效果可以达到SOTA。但是合成数据训练的模型为何可达到超越传统使用无监督数据预训练后微调的深度表格数据？该博客中便有解释。 Synthetic data...

LFR论文速读(ICLR, 2024)

发表于2025-09-21|机器学习

LFR(ICLR, 2024)，有源码自监督表示学习基于变换不变性假设，使用人工设计的数据增广策略获得了极大提升，但是提升主要集中于视觉和自然语言处理领域，在其他数据模态中并没有直接的应用，甚至可能与特定应用的数据增强约束相悖（application-specific data augmentation constraints: 部分任务不能应用所有增广策略，例如医学图像处理不能左右翻转或者随意改变色彩）。这篇文章展示了一个可被用于任何模态的SSRL(Self-supervised representation learning)策略，因为这种方法并不进行任何增广或者掩码。特别的，它证明高质量的数据表征可以通过重构随机的数据投影获取。作者在一系列表示学习任务上评价了这种方法，发现其优于多个SSRL的SOTA。要点速递 E-M法更新模型：依次更新主干网络和分类头网络，并且更新次数不相同，让分类头充分训练可以让其充分发挥主干网络提取表示的能力。 batch-wise Barlow Twins：让同一个样本的不同增强版本在特征空间中尽可能相似（invariant），同时鼓励特征向量的...

STUNT论文速读(ICLR, 2023)

发表于2025-08-14|机器学习

STUNT: FEW-SHOT TABULAR LEARNING WITH SELF-GENERATED TASKS FROM UNLABELED TABLES(ICLR, 2023).有源代码。在这偏文章中，作者提出了一种简单但是高效的小样本半监督表格学习框架：Self-generated Tasks from UNlabeled Tables(STUNT)。我们的主要想法是：通过将多个选中的列作为标签自己产生多种小样本任务。然后使用元学习模式通过构建的任务来学习泛化的知识。另外，通过使用STUNT从无标签数据中产生伪验证集，我们引入无监督的验证模式来进行超参数研究。重点速递这篇文章是一个相对细分的领域：表格数据中的半监督小样本学习(semi-supervised few-shot tabular data learning)。ProtoNet：原型网络，通过计算一个类别的原型(可以是一个类别的均值)。然后计算原型到样本的距离来分类(k-means?)。小样本学习架构：小样本学习一般记作N-way K-shot代表有N个类别，每个类别内有K个样本的情况，例如5-way 1-s...