纪立农教授团队最新成果:机器学习预测中国T2DM患者的3年ASCVD风险

考虑到2型糖尿病(T2DM)患者动脉粥样硬化性心血管疾病(ASCVD)风险评估和分层的重要性,预测模型已越来越多地被纳入临床指南[1]。未来的工作将侧重于对更大规模和异质性数据集的处理分析,以期为临床实践提供一个可靠的ASCVD风险预测模型。在北京大学人民医院纪立农教授团队发表于Journal of Diabetes Investigation的一项最新研究[2]中,开发的机器学习(ML)模型,特别是随机森林(RF)预测模型,在预测中国T2DM患者的3年ASCVD风险中表现出良好的预测性能,此研究成果或将助力ASCVD个体化预防和管理的尽早实施。

图片


ASCVD——众所周知的糖尿病杀手

ASCVD定义为冠心病、脑血管疾病或动脉粥样硬化来源的外周动脉疾病,是T2DM患者发病和死亡的主要原因[1]。周围血管疾病是糖尿病发生率很高的一种并发症,据估计,每年有5%~7%的外周动脉疾病患者发生缺血性卒中、心肌梗死和血管性死亡[3]。T2DM患者通常还会出现一系列血脂异常,有证据表明,高水平的甘油三酯(TG)可能导致糖尿病患者心血管疾病(CVD)死亡率的增加。此外,社会经济地位、地理或社区位置和疾病状态差异也会影响ASCVD患病率。

ML——备受关注的科研宠儿

现代ML是传统统计技术的延伸,并使得从大型数据集中提取有用的模式来解决临床问题成为可能。最新欧洲心脏病学会(ESC)指南特别推荐使用DIAL模型来评估T2DM患者的终生CVD风险。ML风险预测模型在ASCVD风险预测中表现出强大的能力,但大多数是在西方环境中开发的,尚未在中国人群中得到充分验证。中国ASCVD风险预测模型(China-PAR)在预测ASCVD风险方面表现良好,但其是为一般人群设计的,当应用于T2DM患者时,其性能可能会受损。因此,需要一个可靠的中国患者风险预测模型,以更好地管理世界上规模最大T2DM患者人群的ASCVD进展。

研究人群

使用3BExt数据库中2010~2014年中国94家1~3级医院收治的T2DM患者的临床数据。共有4722例T2DM患者被纳入分析,在3年随访期间,375例(7.94%)患者出现ASCVD。随机抽取719例患者进行模型开发和验证,其中,575例被纳入训练集,144例被纳入测试集,278例被纳入外部验证数据集(图1)。

图片

图1. 受试者ASCVD风险预测框架


ML预测模型的建立

在本研究中,使用Python编程语言的Scikit-Learn库构建ML预测模型,包括逻辑回归(LR)、支持向量机(SVM)、梯度提升决策树(GBDT)、随机森林(RF)和自适应提升算法(AdaBoost)。使用总体准确率、F1评分、曲线下面积(AUC)、敏感性和特异性评估各种ML模型的准确性。对于模型解释,使用SHapley加性扩展(SHAP)值分析影响模型预测的重要特征。


研究结果

01 模型性能

在测试集的度量得分比较中,5种ML模型均取得了良好的性能,AUCs范围为0.809~0.859;与其他模型相比,RF模型的性能最好,预测效果最佳,准确率为0.826,F1值为0.832,AUC为0.859,灵敏度为0.838,特异性为0.814。相对而言,LR模型的预测效果较差。与模型在测试集上的性能相比,在外部验证集上的度量得分略有下降;RF模型仍然表现最好,准确率为0.799,F1值为0.857,AUC为0.823,敏感度为0.833,特异性为0.797(图2)。

图片

图2. 在测试集(左)与外部验证集(右)中,5种ML模型预测ASCVD的工作曲线


02 特征重要性

在RF模型的重要性矩阵图中,显示影响该模型的前5个最重要特征是年龄、糖尿病病程、既往糖尿病周围血管疾病史、总胆固醇(TC)和TG(图3)。在使用SHAP值探索单个特征对模型的贡献程度中发现,既往有糖尿病周围血管疾病史、老年人、糖尿病病程长、医院等级高和较高TG水平导致较高的ASCVD风险(图4)。另外还发现,生活在中国北方的T2DM患者与较高的ASCVD风险相关。此外,SHAP依赖图进一步显示,年龄>65岁、糖尿病病程>10个月、TG>1.5 mmol/L的患者ASCVD风险增加的可能性更大。

图片

图3. RF模型的重要性矩阵图

图片

图4. RF模型中10个最具预测性特征的SHAP总结图
在不同特征对ASCVD风险预测影响的比较实验中,患者临床特征对模型的贡献大于实验室特征。使用所有特征的RF模型表现最好,而仅使用重要性排名前20位特征的模型对ASCVD风险的预测能力也很强,AUC为0.852,准确率为0.819,F1值为0.822,敏感度为0.811,特异性为0.829(表1)。
表1. 不同变量的RF模型预测ASCVD风险结果

图片


结论

5个ML预测模型均具有良好的性能,其中RF模型在测试集(AUC=0.859)和外部验证集(AUC=0.823)中均表现出最好的识别能力,灵敏度和特异性分别为0.838和0.814。SHapley加性解释分析显示,既往有糖尿病周围血管疾病史、老年人群和糖尿病病程较长是3个最具影响力的预测因素。


小结

与其他研究相比,本研究纳入了相当多数量的T2DM患者,并确保了患者的长期随访依从性,以及数据收集的连续性和完整性。研究表明,ML算法,特别是RF算法,可以精确地预测T2DM患者的ASCVD风险,为中国T2DM患者的早期ASCVD风险评估和强化提供了一个探索性工具,使个体化治疗成为可能,从而有助于临床决策和资源分配。此外,模型的可解释性有助于为临床医生提供对预测因子的见解,这在预测ASCVD风险中至关重要。


参考文献:

1. Draznin B, Aroda VR, Bakris G, et al. Diabetes Care. 2022; 45(Suppl 1): S144-S174.

2. Ding J, Luo Y, Shi H, et al. J Diabetes Investig. 2023; 10.1111/jdi.14069.

3. Campia U, Gerhard-Herman M, Piazza G, et al. Am J Med. 2019; 132(10): 1133-1141.


声明:本文仅供医疗卫生专业人士了解最新医药资讯参考使用,不代表本平台观点。该等信息不能以任何方式取代专业的医疗指导,也不应被视为诊疗建议,如果该信息被用于资讯以外的目的,本站及作者不承担相关责任。 2 comments

发布留言