循证医学9-12周回顾
非参数检验
非参数检验的适应条件
- 等级顺序资料
- 偏态资料
- 未知分布资料
- 各组资料的变异度大,方差不齐,变换也不能达到齐性
- 数据一端或两端有不确定值的资料
- 初步分析
可以举几个例子:1. 不满足参数检验的要求;2. 血糖水平高于最高值会显示high
非参数检验的缺点
容易出现第II类错误,即假阴性概率增大,本应显示出显著性差异的结果但是却并没有出现显著性差异。
两组配对设计资料的比较
Wilcoxon符号秩和检验
- 符号检验
- 配对设计差值的符号秩检验:其实就是对差值进行符号检验
单样本资料的符号秩和检验
Wilcoxon符号秩和检验。对标单样本正态检验
成组设计两样本比较的秩和检验
Wilcoxon秩和检验
成组设计多个样本比较的秩和检验
Kruskal Wallis H检验
原始数据的多个样本比较
对标参数检验中的ANOVA,用于揭示多组数据的中位数是否完全相同
多个样本两两比较的秩和检验
对标参数检验中的SNK-Q, LSD-T检验
回归与相关
回归与相关并不相同,从概念上讲,相关其实是一种双重映射,而回归是单射。从直觉上讲,相关其实是一个相对模糊的概念,并不具有因果性,而回归其实是显示出一种简单的因果性:是自变量的改变会导致因变量改变程度的一种反映。
回归
回归方程
$$Y = \alpha +\beta X + \epsilon$$
$\alpha$:回归直线的截距
$\beta$:回归直线的斜率,又称为回归系数
$\epsilon$:误差项,在线性回归中我们认为其满足均值为0,方差为1的假设,所以在完成线性回归后我们将会对其进行残差检验,以研究其是否满足我们的前提。
参数估计
F检验
$$\begin{aligned} \sum(Y-\bar{Y})^2 &= \sum((\hat{Y}- \bar{Y}) + (Y - \hat{Y}))^2 \\ &=\sum(\hat{Y} - \hat{Y})^2 + \sum(Y - \hat{Y})^2 \end{aligned} $$$Y$:真实值
$\hat{Y}$:预测值
$\bar{Y}$:均值
其中$\nu_{总}=n-1, \nu_{回归} = 1, \nu_{误差} = n-2$
区间估计
回归系数的区间估计
$$b \pm t_{\frac{\alpha}{2},n-2}S_{b}, S_{b}=\sqrt{ \frac{MS_{误差}}{l_{XX}} }$$均值的区间估计
$$\hat{Y}\pm t_{\frac{\alpha}{2},n-2}S_{\hat{Y}}, S_{\hat{Y}}=S_{YX}\sqrt{ \frac{1}{n} + \frac{(X_{0}-\hat{X})^2}{\sum(X-\bar{X})^2}}$$其中$l_{XX}=\sum(X-\bar{X})^2, S_{YX}=\sqrt{ \frac{\sum(Y-\hat{Y})^2}{n-2} }=\sqrt{ \frac{SS_{剩}}{n-2} }$
个体Y值的容许区间
残差分析
线性回归模型满足以下四个前提要求:线性、独立、正态性、等方差。
这里线性的条件很容易理解;对于独立的条件,其实就是为了避免样本之间的相关性,例如我们要研究药物浓度与时间的关系,但是样本中存在相同人的不同时间的样本,那可能会出现该人的某个时间段的检查数值与之前某个时间的检查数值相关。那么我们在进行回归的时候会发现,如果前一个时间段浓度高,该时间段浓度也会高。也就意味着,有一部分的误差并不能通过对于时间的回归来解释,这里我们需要使用时间序列分析以最大化对于不同时间段相同人的数据的利用率。
正态性与等方差性则是进行线性回归的前提,如果不满足则优化的方法其实是有问题的。
为了验证以上4个前提,我们常使用残差分析。
残差分析我们可以认为是线性回归的粪便检查,线性回归完成后我们需要研究回归后还剩下什么,残差就是回归后的边角料,如果边角料中存在很明显的趋势,那我们就不能丢弃这一部分的数据,我们仍然需要进一步挖掘。而这一趋势其实就是数据不满足以上线性回归四前提的实际体现。所以也可以认为,线性回归的能力(消化能力)其实并不强,一但数据复杂度增高(消化难度增加),就难以继续使用线性回归挖掘数据(消化并吸收营养),所以需要进行残差回归以确定线性回归可以充分利用该数据。
注意事项
线性回归不能外推、要有实际意义、要先绘图(非常重要,这是线性回归乃至后面的时间序列分析、断点回归、样条插值的必需前提)、要假设检验(应该不会有人忘记,因为软件自动进行)
相关
$$r = \frac{\sum(X-\bar{X})(Y-\bar{Y})}{\sqrt{ \sum(X - \bar{X})^2\sum(Y-\bar{Y})^2 }}=\frac{l_{XY}}{\sqrt{ l_{XX}l_{YY} }}$$大部分类似于回归
秩相关
适用于:不满足双变量正态分布、总体分布未知、等级表示的原始数据
多元线性回归
类似于线性回归
筛选自变量
后退法、前进法、逐步法
这里筛选自变量其实还有一个很重要的原因,就是可能原来不显著的结果在筛选变量后变得显著。
重复测量资料的方差分析
重复测量实验能不能进行普通的成组检验(参数或非参数)?答案是否定的,因为不管是参数与非参数检验均需要保证样本之间的独立性和随机性,但是重复测量的数据一定有相关性。
为了避免时间因素,所以需要同时考虑分组与重复测量的时间点.
随机区组设计方差分析法
前提:满足“球对称”假设
重复测量数据的两因素两水平分析
当前后差值不满足方差齐性时。进行重复测量设计方差分析,分析表的阅读方式与之前的随机区组设计类似。
两因素多水平重复测定资料的方差分析
进行重复测量设计方差分析,分析表的阅读方式与之前的随机区组设计类似。
实验设计
交叉设计
分组同时需要分为2阶段,不同阶段进行不同处理。
前提:需要满足无延后效应
拉丁方设计
通过拉丁字母组成方阵,在同一行或同一列内没有重复的字母。
这样你就会发现,在每个时间段每种处理方式都有1个样本。
正交设计
表头设计
设计流程如下:
- 如果我们希望研究的是每个因子的2阶交互因子。
- 将A,B放在1,2列内。
- 对于$A \times B$我们查看A,B因子所处的列1,2列,查交互作用表中1行2列,得到3。所以将$A \times B$放于第3列,
- 将C放在第4列,研究$A \times C$,我们查看1行4列得到第5列,将其放置在第5列。
生存时间资料分析
生存资料的特点
- 存在删失值(如何处理?)
- 效应变量有2种
- 分布类型复杂
小样本生存率的K-M估计
删失值不纳入死亡率的计算。
大样本生存率的寿命表法估计
删失人员只作为半个人。
log-rank检验
用于检验2组人群生存率是否存在差异性
Cox风险比例模型
可以研究不同协变量对于生存率的影响
非参数检验的流程
生存分析的流程