T2GFormer
Introduction作者在这篇文章中提出了一种新的特征交互方式。这种方式基于一种新型的图估计器,这种估计器可以自动估计特征之间的关系并通过连接相关特征来构造图像。一种特别的 跨层读取(Cross-level Readout) 收集了通过T2Gformer预测的不同层的突出特征并获取全局信息并作出预测。T2Gformer优于深度神经网络并与非深GBDT能力相近。T2Gformer的优势在于特征交互项的提取,所以作者在引入中便提及:已有的特征选择方法可以被分为“软”与”硬”版本。”软”版本本质上运用特征间的全连接交互项,例如乘法交互项、特征交叉与基于注意力的交互。但是表格特征本质上就带有异质性,所以全连接交互是一个次优的选项因为其盲目地将所有特征融合在一起。DANets使用了”硬”版本,其将相关的特征分组并将交互限制在被分组的特征内,虽然DANets取得了非常有潜力的成果,他的特征选取操作依旧不能解决组内交互的问题,因此同一组的特征被无差别的融合,使得模型表达能力下降。作者设计了Graph Estimator(GE)来组织表格特征为一个特征关联图(FR-Graph),更进一步的,...
表格数据学习方法综述阅读(上)
表格数据(tabular data)是日常生活中最常见的数据格式,为了挖掘表格数据中的有效信息,提出了很多相关的算法。这篇综述概括了表格数据的机器学习与深度学习方法,原文来自于南京大学LAMDA实验室中的LAMDA-tabular课题组,文章地址。 1-3对于tabular data的一些简单介绍,略过 4 特定方法的分类作者将模型分为三类:特化方法(specialized methods), 迁移方法(transferable methods), 广义方法(general methods)。 Specialized method作者从3个角度入手讲述特化模型的方法:Feature Aspect:特征角度来看,模型主要针对数据特征的关系进行建模。Sample Aspect:从样本特征来看,模型通过最大化每个样本最邻近样本的作用来预测。Objective Aspect:从客观角度,修改损失函数和整体目标(Overall objective)来引导模型特定的模式与偏好,注入inductive bias(推断偏倚)。 Feature Aspect特征角度来看,模型主要针对数据特征的关...
GNN
图是我们身边非常常见的结构,最近的一些研究让我们能够使用图结构的优势,在许多领域,如抗生素的研究、物理仿真、虚假新闻的识别,交通预测和推荐系统都有了最新的研究与实践。这篇学习/总结博客参考了biliili上李沐的带读以及A Gentle Introduction to GNN这篇文章探索并解释了现代图神经网络,我们将工作分为4个部分:1. 什么类型的数据可以以图的形式记录;2. 图结构的特点与优势:相较于CNN或者传统深层神经网络;3. 建造一个GNN模型:从一个骨架到SOTA;4. 提供一个GNN playground供读者探究(会超链接回原文章)。 What a Graph is图是一系列实体之间的关系如果我们用图论的知识来看,图的描述其实有多种方式,如:邻接矩阵、集合的表示。我们这里采用相对容易接受的集合表示方法:一个图主要由 节点(Nodes) 和 边(Edges) 构成。以下图为例:其中存在5个节点,与6条边。其中点集合为$V = { A,B,C,D,E }$。边集合为$E = { AB, BC,CD,DE,AE, CE }$上图边为无向的...
因果推断初步——反因果框架
在这篇文章中,你将会了解到:什么是bias,为什么我们在研究中存在bias,以及如何消除bias。We sometimes call the potential outcome that happened, factual, and the one that didn’t happen, counterfactual.$Y_{0i}$ is the potential outcome for unit i without treatment, it can also be written as $Y_{i}(0)$$Y_{1i}$ is the potential outcome for unit i with treatment, it can also be written as $Y_{i}(1)$we define the individual effect as $Y_{1i}-Y_{0i}$ , which can not be accumulated for the counterfactual. so we can only accumulate Average ...
循证医学9-12周回顾
非参数检验非参数检验的适应条件 等级顺序资料 偏态资料 未知分布资料 各组资料的变异度大,方差不齐,变换也不能达到齐性 数据一端或两端有不确定值的资料 初步分析可以举几个例子:1. 不满足参数检验的要求;2. 血糖水平高于最高值会显示high 非参数检验的缺点容易出现第II类错误,即假阴性概率增大,本应显示出显著性差异的结果但是却并没有出现显著性差异。 两组配对设计资料的比较Wilcoxon符号秩和检验 符号检验 配对设计差值的符号秩检验:其实就是对差值进行符号检验 单样本资料的符号秩和检验Wilcoxon符号秩和检验。对标单样本正态检验 成组设计两样本比较的秩和检验Wilcoxon秩和检验 成组设计多个样本比较的秩和检验Kruskal Wallis H检验 原始数据的多个样本比较对标参数检验中的ANOVA,用于揭示多组数据的中位数是否完全相同 多个样本两两比较的秩和检验对标参数检验中的SNK-Q, LSD-T检验 回归与相关回归与相关并不相同,从概念上讲,相关其实是一种双重映射,而回归是单射。从直觉上讲,相关其实是一个相对模糊的概念,并不具有因果性,而回归其实是显示出一种...
CLIP
CLIP将计算机视觉与自然语言处理相结合,获得更加优秀的迁移性能与zero-shot效果。同时打破了固定标签的定式。 Abstract针对目前已有的计算机视觉系统,大部分都是使用固定的标签集合,这限制了它的泛化性能和可用性。于是作者选择通过图片的语言文本来进行图像识别。作者爬取了4亿张图片以进行模型的预训练。在预训练完成后,作者在30多个任务上进行了测试。在ImageNet数据集内,CLIP模型在zero-shot的情况下便已经与训练完成的Resnet50打成平手。 IntroductionGPT作为一个”Text-in-text-out”的经典案例,反映了弱监督工作的可行性,于是作者决定提出使用图片与文字结合,进行CLIP模型的研究。已有相关研究VirTex, ICMLM和ConVIRT方法虽然接近,但是数据集规模较少,而有些弱监督模型的准确率较高,其依赖的是极度大量数据集,所以作者考虑到是否能够同时满足以上条件,进而研究出新的方法。在预实验结果中,使用已有模型(ConVIRT)与新的数据,其模型在zero-shot上成功体现出极好的效果。同时模型效果与模型大小呈现正相关。 M...
Propensity Score
The propensity score makes it so that you don’t have to condition on the entirety of X to achieve independence of the potential outcomes on the treatment. It is sufficient to condition on this single variable, which is the propensity score$$(Y_{0},Y_{1}) \perp T|e(x)$$The propensity score is the conditional probability of receiving the treatment, right? So we can think of it as some sort of function that converts X into the treatment T. The propensity score makes this middle ground between th...
Stats Review
“Some equations are dangerous if you know them, and others are dangerous if you do not. The first category may pose danger because the secrets within its bounds open doors behind which lies terrible peril. The obvious winner in this is Einstein’s iconic equation $E=mc^2$, for it provides a measure of the enormous energy hidden within ordinary matter. […] Instead I am interested in equations that unleash their danger not when we know about them, but rather when we do not. Kept close at h...
Beyond Confounders
Good ControlSometimes treatment’s effect on the outcome is much smaller than other factors, in order to figure out the effect of treatment, we should control other factors because:If a variable is a good predictor of the outcome, it will explain away a lot of its variance.To demonstrate this, let’s resort to the partialling out way of breaking regression into 2 steps. First, we will regress the treatment, email, and the outcome, payments, on the additional controls, credit limit and risk scor...
循证医学7-8周回顾
二项分布与poisson分布及其应用二项分布 $$ P(X) = C^x_{n} \pi^x (1-\pi)^{n-x}$$ $$\mu = n\pi, \sigma^2={ n\pi(1-\pi) }$$ 样本率的方差计算同正态分布时的均值的方差计算:$$S_{p}=\sqrt{ \frac{p(1-p)}{n} }$$总体率置信区间计算: 查表方法 正态近似法(样本容量>100, $\pi \approx 0.5$) $$\begin{aligned} u &= \frac{{p-\pi_{0}}}{\sigma_{p}} \\ \sigma_{p} &= \sqrt{ \frac{\pi_{0}(1-\pi_{0})}{n} } \end{aligned}$$ *既往死亡率为40%,实验中120名病人死亡30名,统计推断: H_0: 均值不等 H_1: 均值相等 确定alpha值为0.05,双尾检验* $$\begin{aligned} \sigma_{p}&=\sqrt{ \frac{\pi_{0}(1-\pi_{0})}{n} }\\ &=\sq...