数据分析:数据预处理--缺失值处理(三)

上一篇 数据分析:数据预处理--标准化方法优劣了解(二) 讲了两类常用标准化方法,但没涉及到如何处理缺失数据。更多知识分享请到 https://zouhua.top/

全局校正(global adjustment)标准化是蛋白质组学中常用的方法之一,它将log化的intensity数据的中心转换成一个常数,这个常数可以是mean、median或者其它数学测量指标。比如Zscore就是将数据中心的mean转换成常数0,且standard variation为1的标准化方法。虽然不全局校正标准化能够有效校正样本间的差异,但不能处理如非线性的偏差。

Robust scatter plot smoothing 或 lowess regression是另一类标准化方法,limma包的voom函数就使用了该方法。通过线性回归的残差拟合曲线,然后计算每个feature对应的权重值,这作为标准化结果。

蛋白质组的质谱数据的特点是缺失值特别多,产生缺失值的原因有好多:

处理的缺失值的策略有:

缺失值分类:

缺失值到底是符合MCAR还是censored data呢,可以通过概率模型判断。可阅读文献 A statistical framework for protein quantitation in bottom-up MS-based proteomics 或 Bayesian analysis of iTRAQ data with nonrandom missingness: identification of differentially expressed proteins 。

**Notes: ** 从1st和3rd分位数能看出KNN的补缺效果还不错,但也看到Sepal.Length的最小值补缺前后差距较大。