数学模型在实验诊断中的应用价值与前景

【摘要】数学模型是一种基于现实研究对象，根据其内在规律，运用数学符号、数学公式、程序、图形等数学工具，概括表达问题的数量关系和空间形式的一种工具。随着基因组、转录组、表观遗传组、蛋白质组和代谢组等多组学研究的不断深入和医疗大数据时代的到来，传统的生物统计方法已不能满足数据分析要求，通过数据挖掘建立数学模型，已成为实验诊断学大数据研究的主要策略。【关键词】数学模型；大数据；数据挖掘；实验诊断数学是研究数量、结构、变化以及空间模型等概念的一门学科。数学模型是一种基于现实研究对象，根据其内在规律，运用数学符号、数学公式、程序、图形等数学工具，概括表达问题的数量关系和空间形式的一种工具[1]。近年来，随着科技的发展和高性能计算机的广泛应用与普及，数学在生物医学领域的研究中具有越来越重要的地位[2]，数学模型已经广泛应用于各个医学场景并构建了相应的模型，如细胞动力学模型、药物动力学模型、神经网络模型、肿瘤生长模型、心血管模型、临床计量诊断模型和疗效评价模型等[3-5]。随着基因组、转录组、表观遗传组、蛋白质组和代谢组等多组学研究的不断深入和医疗大数据时代的到来，深入研究数学模型在医学领域的应用具有重要的意义。实验诊断学作为临床医学的一个重要分支，主要是运用物理学、化学和生物学等实验方法对各种标本进行定性和定量分析，为临床诊断提供可靠依据。随着医疗诊断手段进步，高通量实验设备的使用和多组学生物标志物的应用，医疗机构和科研平台的实验室每天都产生海量高维的实验诊断数据。合理运用数学模型这一利刃，对海量高维的实验诊断数据进行深度挖掘，探究疾病发生发展的规律，构建具有临床诊断意义的数学模型，从而为临床诊断、疾病治疗和预后判断提供充分的理论支持和可靠依据，对于实验诊断学的发展具有划时代的意义[6]。一、常用实验诊断学大数据的数据挖掘方法通过数学建模，可得到有效的实验诊断学数学模型。数据挖掘，是大数据领域方面的一类数学建模方法，数据挖掘能够分析数据内在的联系和规律并以模型或规则表达这些规律。通过数据挖掘，可直接得到相应的数学模型[7]。数据挖掘分为预测型（Predictive）和描述型（Descriptive）两大类型。预测型数据挖掘是利用从历史数据中发现的已知结果，推断或预测未知数据的可能值。描述型数据挖掘是识别数据中的模式（Pattern）或关系，旨在探索被分析数据的内在性质。根据对象的性质和需要解决的具体问题，可以采用不同的数据挖掘方法。常用的预测型数据挖掘方法主要包括主成分分析（Principal Component Analysis, PCA）、分类（Classification）、回归分析（Regression analysis）和时间序列分析（Time series analysis）等；描述型数据挖掘方法包括聚类（Clustering）、关联规则分析（Association rule analysis）和序列分析（Sequence analysis）等[8]。1.主成分分析：实验诊断学数据通常具有高维度特征，但往往没有足够的病例数量与之对应，这使得大量高维度数据集中在低维空间，因此降低维度在实验诊断学数据处理中具有重要意义。主成分分析（Principal Component Analysis, PCA）是多元统计学中的一种降维技术和特征提取法，它能用少量数据表示原始数据的绝大部分信息，通过线性变换将原始数据变换为一组各维度线性无关的表示（即主成分，Principal Components），用于提取数据的主要特征分量。PCA能够处理高维复杂数据，防止冗余信息干扰和获得主要信息，从而提高分析问题的效率[9]。2.回归分析：回归分析（Regression analysis）能够研究自变量和因变量之间的关系，根据所构建的回归模型计算自变量对因变量影响的大小。回归分析能够识别和表征多个因素之间的关系，还能够识别和预测相关的风险因素。常用的回归方法包括线性回归（LinearRegression）、Logistic回归（Logistic Regression）、COX回归（Proportional hazards model，COX回归）、LASSO回归（Least absolute shrinkage and selection operator regression, LASSO回归），列线图（Nomogram）等[10]。3.分类：分类分析（Classification analysis）是根据已知类别成员的观察值的集合，确定新观察值所属哪种类别的方法。分类分析首先基于已知所属类别的历史数据的特征描述预先定义好的类别, 构建预测类别的模型；再根据待查数据的相关特征, 确定该待查数据应划归入的类别。在实验诊断学领域，分类的常用方法有决策树（Decision Tree）、贝叶斯分类（Bayesian classification）、人工神经网络（Artificial neural network, ANN）、K-最邻近分类（K nearest neighbor, KNN）、支持向量机（Support vector machine, SVM）等[11]。4.时间序列分析：时间序列（Time series）是一组按照时间发生先后顺序进行排列的数据点序列。时间序列分析是指对时间序列数据进行分析和研究，寻找时间序列数据的变化发展的规律, 其结果往往是得到预测性的数值输出[12]。一般来说数据无波动或波动较小的时间序列宜用灰色动态模型（Grey dynamics model, GM），波动较大的时间序列则宜用整合移动平均自回归模型（Autoregressive integrated moving average model，ARIMA）[13]。GM(1, 1) 模型是GM中最基本的预测模型，具有所需样本量少（4个以上数据即可建模）、计算简单、预测精度高、预测结果可检验性强的特点，能有效地解决“小样本”、“贫信息”等不确定性问题。5.聚类分析：聚类分析（Cluster analysis）是将待处理的数据集中，把相似的对象通过静态分类的方法分成不同的组别或者更多的子集（Subset）。聚类分析能够从数据分析的角度，将复杂的数据按某些相似性度量规则进行挖掘，总结出一个更加准确、细致的分类[14]。聚类方法主要包括 K-均值聚类、层次聚类和DBSCAN（Density-Based Spatial Clustering of Applications with Noise）密度聚类算法等。6.关联规则分析：关联规则分析（Association rule analysis）是分析已有数据，发现数据之间某些未知的、潜在的且有实际意义的关联或联系，并以关联规则的形式表现出来。关联规则分析, 主要反映事物之间的关联性, 即某些事件一起发生的可能性。这些事件一起发生的原因在于其内在的关联, 而并非一定是因果关系。关联规则分析常用的算法有：Apriori 算法和FP-growth关联规则算法[15]。二、数学模型在实验诊断学中的应用价值近年来，除常规实验诊断学指标如血常规、生化、免疫和肿瘤标志物外，多组学生物标志物也逐渐应用于临床。随着各种标志物的应用和医疗大数据的发展，高维、海量、复杂甚至冗余的实验诊断数据不断迭代产生，传统生物统计学方法已不能有效处理这些数据，需要借助先进的数学工具和模型，结合数据挖掘方法，才能从数据中发现规律，从而辅助疾病的诊断和治疗[16]。通过数学模型，将医学实际问题用数字、图表、公式和符号等方式展示，可使得医学问题的分析、判断具有理论依据。数学模型在实验诊断学中常表现为评分系统，使得医学诊断定量化，可有效避免主观因素造成的误诊，从而提高医学研究和临床诊断的准确性[17]。1.主成分分析：Mieke Steenbeke等基于傅里叶变换红外光谱（Fourier-transformed infrared spectroscopy, FTIR）检测尿路感染的细菌，发现主成分分析能够区分为革兰阴性菌和革兰阳性菌，从而为临床医生在细菌培养鉴定结果出来之前，为患者进行经验性用药提供依据[18]。Testoni B等对慢性乙型肝炎（Chronic hepatitis B infection, CHB）患者HBV感染相关的血清标志物水平进行主成分分析，发现根据血清HBcrAg水平不同，可把HBeAg阴性患者分成多个亚组，其中在HBcrAg、血清HBV-DNA、肝内HBV-DNA、肝内pgRNA和肝内cccDNA均高水平的亚组中，患者肝组织具有较高的纤维化和炎症水平[19]。Hitoshi Ozawa对HBV相关性肝癌患者癌组织和癌旁组织的236种二肽（Dipeptides）进行主成分分析，发现癌组织和癌旁组织二肽谱存在差异，二肽的N-和C-末端氨基酸组成也显著不同。进一步分析表明，HBV相关性肝癌患者在肿瘤形成之前就可能形成了特征性二肽谱，从而为利用代谢组学结果预测肝癌的发生提供依据[20]。2.回归分析：在一项长达10年的心血管事件（Cardiovascular events）的队列研究中，Stefan Blankenberg等对30多个生物标志物进行LASSO回归分析，结果表明脑钠素前体（N-terminal pro-brain natriuretic peptide，NT-proBNP），C-反应蛋白（C-reactive protein，CRP）和心肌肌钙蛋白I（Cardiac Troponin I，cTnI）与心血管事件密切相关，研究结果对心血管事件发生预测、判断和预后评估具有着重要意义[21]。Li等对癌症基因组图谱数据库（The Cancer Genome Atlas , TCGA）中乳腺癌的lncRNA组学数据进行COX回归分析发现，自噬相关的lncRNAs（U62317.4、LINC01016、LINC02166、C6orf99、LINC00992、BAIAP2-DT、AC245297.3、AC090912.1、Z68871.1、LINC00578和LINC01871）可作为乳腺癌预后的预测因子[22]。3.分类：王超等收集3511例新生儿黄疸患者指标（包括性别、分娩方式、喂养方式、体重、孕周及出生当天的时间段和首次测量胆红素时间等），随机抽取70％患者作为训练集用于决策树模型建模，剩余的30％患者作为验证集对决策树模型进行验证，结果表明决策树模型能够准确预测新生儿黄疸[23]。Pei等收集3454例体检人群的年龄、性别、BMI、睡眠情况、压力情况、教育情况、糖尿家族史、高血压家族史和血脂等情况等14个指标，应用决策树模型预测糖尿病的发生，预测准确率高达90.3%，从而为糖尿病高风险人群预防和干预控制提供参考[24]。Yang等用GB决策树（Gradient boosting decision tree，GBDT）对3356例（1402阳性和1954阴性）新冠病毒（COVID-19）核酸检测人群的性别、年龄、种族和27项常规实验室检测指标（血常规、生化、CRP、转铁蛋白和cTnI）进行分析，发现GBDT模型可准确预测出COVID-19患者（ROC：0.854，95% CI：0.829～0.878），从而为不能及时进行COVID-19核酸检测的患者的辅助诊断提供依据[25]。Masih Sherafatian等对TCGA数据库中肺癌的miRNA组学数据进行决策树建模分析发现，hsa-miR-183和hsa-miR-135的表达水平可用于区分肺癌癌组织和癌旁组织（AUC=0.912），而hsa-miR-944和hsa-miR-205的表达水平可用来区分肺腺癌（lung adenocarcinoma, LUAD）和肺鳞癌（lung squamous cell carcinoma, LUSC）（AUC=0.916）[26]。4.时间序列分析：Wang等用GM(1, 1) 模型和ARIMA模型预测中国HBV的发病趋势及其影响因素，从而为制定乙肝的预防监测措施提供决策依据[27]。赵露露等利用GM(1, 1)模型对2020年2月11日～4月2日全国新增COVID-19患者人数（除湖北省外）以及胜利日进行预测，结果发现GM(1, 1) 模型能够很好地拟合全国（除湖北省外）COVID-19患者的增长趋势，预测的胜利日与实际值相差无几[28]。Wang等发现GM(1, 1) 模型可准确预测2型糖尿病患者的餐后2小时血糖水平，研究结果对于预测2型糖尿病患者餐后2小时血糖水平和是否采用胰岛素治疗具有重要的参考价值[29]。5.聚类分析：Xiong等根据发病年龄、BMI、HbA1c、胰岛素β细胞功能、胰岛素抵抗和谷氨酸脱羧酶抗体（Glutamate decarboxylase antibodies, GADA）等指标对中国5414例2型糖尿病患者进行聚类分析，发现中国2型糖尿病患者具有7个亚型，其中2个亚型即尿酸相关糖尿病（Uric acid-related diabetes, UARD）亚型和遗传相关糖尿病（Inheritance-related diabetes，IRD）亚型为首次报道，不同亚型之间具有独特的的临床特征和不同的临床结局，研究结果为2型糖尿病的诊断和治疗提供了重要的依据[30]。在基于超高效液相-质谱靶向脂质组学的研究中， Xuan等对7000多个的脂质分子进行聚类分析，结果表明聚类分析可用于筛选糖尿病患者和健康志愿者的差异脂质分子[14]。6.关联规则分析：李准等利用 Apriori算法对不同性别、不同年龄的高血压患者的检验结果和用药情况进行关联规则分析，结果挖掘出29条强关联规则，为医生对不同年龄段、不同性别的患者诊断和用药提供了参考，进一步可为高血压慢病管理的用药管理提供依据[31]。Jhang等用Apriori算法评估老年下肢动脉疾病（Symptomatic lower extremity arterial disease, LEAD）患者2年生存期，结果表明，营养状态、中性粒细胞-淋巴细胞比值（Neutrophil-lymphocyte ratio, NLR）和是否中风与老年LEAD患者的2年生存期具有关联，该关联规则有助于临床医生选择合适的治疗方法[32]。Disha Tandon等使用关联规则挖掘技术对肠道菌群宏基因组数据集进行分析，结果表明，无论受试者的性别如何，肠道微生物群中的微生物关联模式都相似，并进一步推断社区内微生物相互作用模式[33]。在对实验诊断学大数据的挖掘和建模过程中，不论是预测型还是描述型的数据挖掘方法，往往不是单独使用，通常都会结合各种方法综合应用，从而得到更加全面的数学模型，如Wang等运用随机森林方法进行规则提取并进一步构建决策树模型，该模型可精确诊断乳腺癌[34]；Xu等利用全球疾病负担数据库（Global Burden of Disease database）中原发性肝癌发生率和病例数（1990年～2017年），计算估计的平均百分比变化（estimated average percentage change, EAPC）以量化原发性肝癌年龄标准化发病率（age-standardized incidence rates, ASR）的趋势，结合数据特点构建了贝叶斯年龄-时间-队列模型（Bayesian age-period-cohort models），从而预测到2030年的原发性肝癌发生率和病例数[35]。数据挖掘方法很多，新方法也在不断研究和开发中，如George N Ioannou等利用深度学习模型（Deep Learning Model）准确预测HCV肝硬化患者进展为肝癌的风险[36]。但是任何一种数据挖掘方法都有其适用性和局限性，必须根据具体问题选择合适的数据挖掘方法，从而建立合适的数学模型[37]。三、数学模型在实验诊断学中应用的前景目前，虽然大量研究通过数据挖掘已建立众多实验诊断学的数学模型，但目前在临床得到应用的模型还只是少数。在实验诊断学的实际应用中，基于COX回归和Logistic回归构建的模型较为常见，如评价终末期肝病严重程度的终末期肝病模型（Model for end-stage liver disease，MELD）[38]，肝硬化死亡率的Child-Pugh评分模型[39]，CHB患者肝癌风险预测的mPAGE-B模型[40]、CAMD模型[41]和GALAD模型[42]，肝癌切除术后早期复发风险模型[43]，酒精性肝炎预后评分（mDF评分）[44]，患者10年内发生动脉粥样硬化性心血管病（Atherosclerotic cardiovascular disease, ASCVD）危险度评估的China-PAR模型[45]，3～4期慢性肾病患者远期结局预测（Kaiser Permanente Northwest, KPNW）模型[46]等。Liang等基于中国多中心（31省575家医院）的1590名COVID-19患者的临床资料，利用LASSO和Logistic回归方法构建了COVID-19住院后重症风险预测模型（COVID-GRAM）[47]。其他数学模型，由于建模过程相对复杂或纳入建模的指标尚未在临床实验室广泛开展，导致该数学模型在实验诊断医学中的实际应用受到局限。综上，目前在临床广泛应用的实验诊断学数学模型仍主要基于小样本和传统实验室指标建立，而基于多组学标志物或大数据建立的数学模型，仍处于起步阶段，尚未广泛应用于临床。究其原因可能是医院信息系统建设不够完善，各个数据彼此孤立，研究者不能得到高维海量数据；其次是实验诊断医学的研究者尚不能熟练运用数据挖掘工具和合理使用数学模型。当前，可进行生物医学数据分析的软件平台很多，如Enterprise、Miner、Weka、R、OracleDATA等[48-51]，每个软件平台均有自己的优势与特点，因此熟练掌握数据分析工具，从而并建立起有效的数学模型，对于实验诊断学数学模型的研究和发展具有积极的促进作用。此外，随着医院电子病例系统和信息系统的完善，以及各种生物标志物、多组学标志物检测成本的降低，数据挖掘、建立及应用数学模型所需要的数据平台将不断得以夯实，利用数学模型解决实验诊断学问题将会越来越便捷，并展现出广阔的应用前景。四、展望目前，各类数学模型已经广泛应用于实验诊断学，并且取得了较好的效果，但和其他领域相比，实验诊断数学模型的研究和应用在深度和广度上，都存在一定差距。因此，应加大实验诊断学数学模型的研究，并利用这些数学模型提升实验诊断的价值，解决更多的医学问题。此外，应用实验诊断学数学模型可更加直观的认识疾病的生物学过程，而构建学科交叉的实验诊断数学模型能够促进更多的基础研究成果向临床应用转化。今后，利用大数据挖掘建立数学模型，必将成为实验诊断学发展的主要趋势，这将为疾病的发生发展和预后的判断提供更加客观、准确的依据。参考文献略注：本文来源于《临床实验室》杂志2021年第4期“临床检验”专题
（责任编辑：dawenwu）

数学模型在实验诊断中的应用价值与前景

相关内容

免费咨询

相关内容

免费咨询

微信扫一扫以下二维码