化学计量学方法用于蛋白质组学质谱数据的特征筛选
来源期刊:分析试验室2012年第10期
论文作者:张世芝 张明锦 杜一平
文章页码:106 - 109
关键词:蛋白质组学;质谱;特征选择;F-score;偏最小二乘判别分析;
摘 要:提出了一种基于偏最小二乘判别分析和F-score的特征筛选方法,并将其用于蛋白质组学质谱数据分析。方法主要包含3个步骤:(1)用LIMPIC算法对原始数据进行预处理;(2)计算每个变量的F-score值并将所有变量按F-score值降底的顺序排列;(3)采用偏最小二乘判别分析交互检验按前向选择法选择最佳变量子集。用本方法对一组卵巢癌数据进行分析,最终从原始的15154个质荷比变量中选择了12个特征变量作为潜在生物标记物,它们在训练集上交叉检验的特异性和灵敏度分别为98.36%和98.15%,在独立测试集上的特异性和灵敏度分别为96.67%和100%。用筛选出的变量作PCA所得的结果显示这些变量能够较好地将样本分类,说明能够反映出样本的类别信息。所提出的方法可用于蛋白质组学质谱数据的特征筛选及样本分类。
张世芝1,张明锦2,杜一平3
1. 青海民族大学化学与生命科学学院2. 青海师范大学化学系3. 上海市功能性材料化学重点实验室华东理工大学
摘 要:提出了一种基于偏最小二乘判别分析和F-score的特征筛选方法,并将其用于蛋白质组学质谱数据分析。方法主要包含3个步骤:(1)用LIMPIC算法对原始数据进行预处理;(2)计算每个变量的F-score值并将所有变量按F-score值降底的顺序排列;(3)采用偏最小二乘判别分析交互检验按前向选择法选择最佳变量子集。用本方法对一组卵巢癌数据进行分析,最终从原始的15154个质荷比变量中选择了12个特征变量作为潜在生物标记物,它们在训练集上交叉检验的特异性和灵敏度分别为98.36%和98.15%,在独立测试集上的特异性和灵敏度分别为96.67%和100%。用筛选出的变量作PCA所得的结果显示这些变量能够较好地将样本分类,说明能够反映出样本的类别信息。所提出的方法可用于蛋白质组学质谱数据的特征筛选及样本分类。
关键词:蛋白质组学;质谱;特征选择;F-score;偏最小二乘判别分析;