已发表论文

基于可解释性算法构建鼻咽癌炎性指标预后模型

 

Authors Luo C, Li S, Zhao Q, Ou Q, Huang W, Ruan G, Liang S, Liu L, Zhang Y, Li H 

Received 18 March 2022

Accepted for publication 11 August 2022

Published 24 August 2022 Volume 2022:15 Pages 4803—4815

DOI https://doi.org/10.2147/JIR.S366922

Checked for plagiarism Yes

Review by Single anonymous peer review

Peer reviewer comments 3

Editor who approved publication: Professor Ning Quan

目的:常规炎性指标相关预后研究基于切割值,损失了炎性指标蕴含的大量信息。本研究采用可解释机器学习算法 RuleFit,探索反映鼻咽癌患者炎性指标预后因子并建立相关预后模型。
方法:采用队列研究设计,收集 2010 年 月至 2014 年 月在中山大学肿瘤医院及佛山市第一人民医院就诊的 1706 名鼻咽癌患者,根据患者来源分为训练组(N=1320)和外部验证组(N=486)。卡方分析筛选出在两个独立医疗中心分布无差异的炎性指标,通过 RuleFit 算法构建具有预后价值的炎性规则,多因素 Cox 回归进一步筛选出时间相关高预测效能炎性规则,并分别建立 RuleFit 模型,常规临床模型及二者的联合模型。同时,采用自动机器学习算法包 AutoML,最小绝对收缩和选择算法(LASSO)及 COX 回归算法建立对照模型。采用受试者工作特征曲线下面积(AUC)和一致性指数(C-index)评估不同模型的预测效能。基于最优预测模型评分将晚期患者分为高风险组和低风险组,通过 Kaplan-Meier 生存曲线分析预后分层与 AJCC 早晚期分层的患者预后差异。
结果RuleFit 确定了 22 条基线炎性指标规则,其直接构建的模型在训练组和验证组中 AUC 分别为 0.69 和 0.64;基于 AutoML 的最优模型 AUC 分别为 1.00 和 0.58。对于总体生存率,最终模型的一致性指数在训练和验证队列均明显高于 TN 分期基础模型(0.769 vs 0.717P<0.001; 0.752 vs 0.688P<0.001),并且在训练和验证队列中显示出较大的泛化性。相较于其他模型,基于 RuleFit 规则的预后预测性能更优。在其他生存率指标中,也呈现出类似的趋势。Kaplan-Meier 生存曲线显示约 22.9%390/1706)的患者在 AICC 分期中 错误” 分期,提出的最终模型能对这批患者进行准确风险分型评估。
结论:炎性指标可显著提高当前 TN 分期系统预测鼻咽癌患者预后预测能力,有利于实现预后精准分层。基于 Rulefit 算法的 Rules 模型具有更优的预测效能和泛化能力,为预后模型研究提供一种新的建模范本。
Keywords: machine learning, nomograms, nasopharyngeal carcinoma, prognosis, survival analysis