教学科研

教学科研

数理与统计学院王国强教授指导研究生在高维数据特征提取领域取得最新研究成果

时间:2019-11-11浏览:1941来源:研究生处作者:摄影:

近期,w88优德体育数理与统计学院王国强教授指导商务统计学专业2017级硕士研究生罗康洋开展了基于F-统计量和MPDC的改进SVM-RFE及其在癌症分类中基因选择的研究,在国际期刊《IEEE Access》上发表最研究成果。


1 实验框架

2 DCBCL数据集的G值

3 DCBCL数据集的F值

根据世界卫生组织的数据,2018年全球新发癌症病例和癌症死亡病例数字高达1810万和960万名。癌症已经成为全球第二大死亡原因,约有六分之一的死亡是癌症引起的,并有超过心脏病成为头号杀手的趋势。晚期癌症通常是无法治疗的,但如果能够在早期阶段做出有效的诊断,大多数患者仍然可以康复。为了提高癌症患者的生存率和治愈率,人们需要从早期诊断中分析相应的癌症微阵列基因数据集。然而,由于样本获得的高昂成本,用于癌症分类的基因表达数据中,集中的样本数量非常少(通常只有几十到数百个),相比之下基因数量非常多(通常为数千个),使得提取有用信息和有效分类变得困难。因此,从大量的癌症微阵列基因数据中选择包含尽可能多的信息的少量基因是一个关键且具有挑战性的问题。另外,数据集中存在的类不平衡问题进一步加大特征选择和分类的难度。文中基于F-统计量和MPDC提出了一种新的特征选择分类模型ISVM-RFE(FPD),并应用于癌症分类中的基因选择。大量数值实验表明ISVM-RFE(FPD)相对于现有的基于SVM-RFE的特征选择分类算法,能在较少牺牲非癌症样本判别率的情况下更有效的识别癌症样本。

该研究成果以“An improved SVM-RFE based on F-statistic and mPDC for gene selection in cancer classification”为题发表在SCI数据库国际期刊《IEEE Access》。该期刊的最新影响因子为4.098,属中科院分区工程技术大类二区。同时,该研究成果受到国家自然科学基金(Nos. 11971302, 11901382, 11471211)、上海市自然科学基金(No. 14ZR1418900)的支持。


周热点新闻
月热点新闻
返回原图
/