%A 王世祥, 张飞, 王玲, 宋凯 %T 肺腺癌吸烟相关甲基化模式识别分类模型及特征基因的识别研究 %0 Journal Article %D 2016 %J 中国生物医学工程学报 %R 10.3969/j.issn.0258-8021.2016.03.007 %P 301-309 %V 35 %N 3 %U {http://cjbme.csbme.org/CN/abstract/article_564.shtml} %8 2016-06-20 %X 吸烟是导致肺癌的一个重要诱导因素,从全基因组基因甲基化水平出发,利用生物信息学方法,通过建立对当前吸烟/不吸烟样本的模式识别分类模型,识别甲基化特征基因,为揭示不吸烟肺癌患者的患病机理奠定基础。为避免甲基化微阵列数据超高维小样本、高噪声、高相关性以及信息饱和现象淹没真正的特征基因,首次采用迭代多重筛选方法,分别从显著性差异、与基因表达水平的关系、生物功能、分类重要性等多个角度对全基因组甲基化数据进行多步筛选,从而识别吸烟相关特征基因。以TCGA数据库中127个肺腺癌样本为训练集,64个EDRN肺腺癌样本为独立测试集,最终确定了48个关键基因。相应模式识别模型对训练集精度达到87.5%(敏感性、特异性分别为87.2%和87.8%),独立测试集分类精度达到76.4%(敏感性、特异性分别为80.2%和73.6%)。交叉研究表明,其中17个基因对癌症发展的重要性已经在其他研究中有所证实,进一步的研究则证明其甲基化的重要性。同时,KEGG和IPA对特征基因在基因调控网络和代谢通路水平的分析表明,特征基因与癌症的发展以及生物功能、细胞发育等都有着密切的联系。