作者: 李波 毛远丽机器学习(Machine Learning, ML)是一门多领域交叉学科技术,通过算法使得机器从大量数据中学习和发现规律,从而对新的样本或数据进行分析和研究的方法。从1949年的赫布理论诞生,机器学习技术经过数十年的蓬勃发展,在大数据时代的背景下,以深度学习为代表的新技术不断涌现,机器学习技术不断从理论走向了实践和应用。目前,机器学习技术在肿瘤学、病理学和部分罕见病的诊断中发挥着越来越重要的作用。数据获取及机器学习的实现进行数据分析的前提是获得大量标准化、准确可用的数据。对大部分研究者来说,通过电子病例系统检索或纳入研究对象、采集数据是最常用的方法。但是通过这样的方式很容易造成数据的缺失,且需要大量的时间和金钱的投入,也很难符合大样本和多中心的要求。目前互联网资源是获取信息的主要来源,肿瘤生物信息学数据库为肿瘤的数据研究提供了有效的资源获取方式。本文介绍几个主要的肿瘤互联网数据库,可作为肿瘤研究数据获取的来源:(1)TCGA是由美国国立癌症研究所(NCI)和国家人类基因组研究所资助成立的肿瘤基因数据库。该数据库包含3万多份各类恶性肿瘤患者病例资料,所提供的数据包括患者的基本病例信息、预后情况、病理图谱、突变位点、表观遗传、基因表达谱及miRNA等;(2)GEO数据库全称GENE EXPRESSION OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。GEO除了二代测序数据外,还包含芯片测序、单细胞测序数据,样本数据也不限于肿瘤。通过上面的数据库,研究者可以免费获取肿瘤患者的各类数据,并作为机器学习的数据来源进行后续的分析、建模、指标筛选和评价工作。获得可用于分析的数据后,即可采用数据分析软件进行后续的分析和建模。目前机器学习建模的主要工具是编程性的机器学习库,如R、Python以及深度学习库caffe、tensorflow等。本文以R语言平台为例描述机器学习的基本步骤及方法。进行机器学习主要包含数据分割 、预处理 、特征选择 、重抽样进行模型调参、变量重要性估计、建立模型、验证及预测等步骤:(1)数据处理是进行建模和分析的第一步,数据文件在R语言中通过缺失值处理、数据归一化后形成完整标准的数据表;(2)通过特征选择和删除强相关自变量,得到最优效率的自变量组合,这一步对后续建模的效率至关重要;(3)数据分割的目的是按照比例将所有样本分为训练组和验证组;(4)数据处理完成后,可以选择相应的机器学习算法建模, R语言中提供了众多的算法包,如Caret、RandomForest、Kernlab等。模型建立完成后,程序将自动进行训练和验证,并计算准确度、敏感度、特异度等数据对模型进行评价。建模步骤思维导图,以及机器学习的类型及算法,大家可以点击阅读原文,进专题查看。机器学习算法在恶性肿瘤诊断中的应用 近年来,国内外采用机器学习算法在疾病诊断、预测中应用非常广泛。根据近年来对机器学习应用综述的统计[1-2],目前研究最多的疾病包括Parkinson病、乳腺癌、心脏病和糖尿病。另外,也有部分研究是关于肾脏病、肝纤维化、肺癌等慢性病和恶性肿瘤的诊断,而监督学习方法是最主流和常规使用的方法。恶性肿瘤诊断的金标准及分级分期方法明确,病程长,有利于大样本数据的收集和分析,而对于急性和病程短的疾病诊断则很少采用机器学习进行分析。从技术算法上分析,SVM、ANN、Logistic回归分析是使用最多的算法,另外,K-均值聚类、DT等算法也比较普遍。近年来发展最快的深度学习算法则较少见到文献发表,深度学习的主要应用领域仍集中在图像处理和语音识别等领域,而且使用门槛高,在医学诊断领域仍需要与影像学、病理学等图像分析领域相结合。而对于单纯的数据分析诊断,线性问题或简单的非线性问题采用简单的分类算法即可达到很好的分类效果。目前的文献研究结果显示,机器学习算法在脑部肿瘤、乳腺癌、白血病、前列腺癌、肺癌、皮肤癌、卵巢癌、大肠癌、肝癌等疾病诊断中得到了应用,其诊断准确率超过90% [3-12]。Eiryo Kawakami[9]团队在2019年采用机器学习算法结合血液学指标对卵巢癌的临床分期、组织类型、预后等方面进行了建模诊断。研究对象为334例上皮性卵巢癌(Epithelial Ovarian Cancer,EOC)和101例良性肿瘤,采用32项外周血检测指标作为模型的输入数据。结果显示,通用梯度回归模型(Generalized Boosted Regression Models,GBM)对良恶性肿瘤的诊断准确率达到93.7%。而采用RF算法对临床分期和组织分型的诊断准确率分别达到69.0%和75.8%。分割聚类(Partitioning Around Medoids,PAM)算法是一类非监督学习方法,该研究采用PAM可准确预测卵巢癌患者的无复发生存期(Relapse Free Survival,RFS)。Hui Li[10]等采用医院电子病例系统收集了582例大肠癌及582例健康对照数据,选择CEA、HGB、Lp(a)、HDL4项血液标志物作为建模指标,比较了Logistic回归、RF、SVM、KNN、NB 5类机器学习算法用于诊断大肠癌的价值,结果显示Logistic回归方法效果最佳,其敏感度为89.5%,特异度为83.5%,AUROC达到0.865。地坛医院的Xiaoli Liu[11]团队构建了一个梯度提升生存(Gradient-Boosting Survival,GBS)分类模型用于肝癌的预后危险度分层,采用的参数包括临床特征、血液学参数和T细胞功能参数。模型可根据患者的各项指标计算风险因子,该因子与患者的BCLC分期、Child-Pugh分级及门静脉肿瘤血栓形成明显相关。Sherry Bhalla1[12]团队利用生物信息学手段获得558例甲状腺癌患者的RNA表达谱数据,并通过RF、SVC等机器学习方法进行肿瘤的分期,其AUROC可达到0.95。机器学习未来发展 从技术层面而言,机器学习存在最大的问题是过拟合现象,也就是建立的模型过度依赖对训练数据的拟合,而在新数据的推广使用中会出现准确率降低的情况,所以在测试模型中保持数据集的独立性非常重要,且在模型建立中尽可能获得更多的数据并保持数据集的更新。随着医疗技术的发展,将机器学习技术深度融合至新一代的医疗诊断手段中,也无疑会使人工智能技术成为新的医疗诊断领域宠儿。尽管目前看来人工智能技术在医疗诊断领域前景广阔,但作为一种相对超前和新颖的技术方法,临床的认可度仍需要得到加强,如何将传统医学诊断技术和人工智能技术有效地整合至临床实践中仍有不小的挑战。参考文献[1] Ibrahim IM, Abdulazeez AM. The role of machine learning aalgorithms for diagnosing diseases. Japanese viral encephalitis[J]. J Applied Sci Technol Trends,2021:10-19.[2] Mehrbakhsh NA, Neda AB, Sarminah S, et al. Disease diagnosis using machine learning techniques: a review and classification[J]. J Soft Computing and Decision Support Systems. 2020: ???19-30.[3] Gokalp C, Bulent GE. Classification of brain tumors by machine learning algorithms, IEEE, 2019.[4] Naresh K, Nidhi M. Breast cancer diagnosis using adaptive voting ensemble machine learning algorithm. IEEE, 2018.[5] Nashat A. Ensemble machine learning for leukemia cancer diagnosis based on microarray datasets. Int J App Eng Res.2019,14(21):4077-4084.[6] Oyewo OA, Boyinbode OK. Prediction of prostate cancer using ensemble of machine learning techniques. Int J Ad Comp Sci Applicat.2020,11(3).[7] Nikita Banerjee Subhalaxmi Das. Prediction lung cancer– in machine learning perspective. IEEE, 2020.[8] Vidya M, Maya VK. Skin cancer detection using machine learning techniques. IEEE, 2020.[9] Eiryo K, Junya T, Nozomu Y, et al. Application of artificial intelligence for preoperative diagnostic and prognostic prediction in epithelial ovarian cancer based on blood biomarkers. Clin Cancer Res. 2019,15;25(10):3006-3015.[10] Hui L , Jianmei L, Yanhong X,et al. Colorectal cancer detected by machine learning models using conventional laboratory test data. Technol Cancer Res Treat. 2021,20:15,330.[11] Xiaoli L, Jilin L, Guanxiong Z, et al. Machine learning approach yields a multiparameter prognostic marker in liver cancer. Cancer Immunol Res. 2021 Mar;9(3):337-347.[12] Sherry B, Harpreet K, Rishemjit K,et al. Mexpression based biomarkers and models to classify early and late-stage samples of papillary thyroid carcinoma. PLoS One. 2020 Apr 23;15(4):e0231629.
(责任编辑:dawenwu)
毛远丽教授谈机器学习技术在检验医学中的新应用|专家论坛
823