Int J Surg华中科技大学同济医学院附属协和医院:可解释机器学习模型预测胰腺癌早期复发:整合瘤内瘤周影像组学及身体成分分析
01文献信息本次分享文献是由华中科技大学同济医学院附属协和医院放射科郑传胜教授团队联合广东省人民医院放射科、武汉科技大学附属老年医院放射科等多中心合作团队近日2025年7月15日在《International Journal of Surgery》中科院2区IF10.1上发表的研究“Interpretable Machine Learning Model for Predicting Early Recurrence of Pancreatic Cancer: Integrating Intratumoral and Peritumoral Radiomics With Body Composition”即可解释机器学习模型预测胰腺癌早期复发整合瘤内与瘤周影像组学及身体成分分析该研究为多中心回顾性研究纳入2014年6月-2023年12月4家医院的589例胰腺导管腺癌PDAC根治术后患者通过整合“肿瘤内肿瘤周围CT影像组学特征”与“CT量化身体成分参数”结合6种机器学习算法构建早期复发ER术后1年内复发预测模型并利用SHAP方法提升模型可解释性。结果显示基于随机森林RF的“肿瘤内-周围影像组学模型”及整合临床病理因素的“联合模型”表现最优可为PDAC术后个性化管理提供精准工具。Fig.1研究工作流程图A.数据准备DataPreparation①纳入4家医院数据集②人工分割肿瘤内/周围区域以定义感兴趣区VOIs③提取肿瘤内/周围影像组学特征④收集临床病理特征如CA199、TNM分期、身体成分指标等。B.模型构建ModelConstruction①对肿瘤内、肿瘤周围、肿瘤内-周围影像组学特征分别进行筛选②整合临床因素采用6种机器学习算法LR、SVM、RF、ExtraTrees、LightGBM、MLP构建4类模型影像组学、临床、临床-影像组学、临床病理-影像组学。C.模型验证ModelValidation①对3类影像组学模型肿瘤内、肿瘤周围、肿瘤内-周围进行内部训练集7:3拆分与外部独立中心验证②采用AUCROC曲线下面积、校准曲线拟合度、决策曲线临床效用评估模型性能。D.模型解释ExploringExplainability①应用SHAP方法解析模型②分析特征重要性、特征对预测结果的贡献、影像组学与临床特征的交互作用明确模型决策逻辑。02研究背景及目标研究背景疾病困境PDAC是恶性程度最高的肿瘤之一5年生存率仅12%仅20%患者确诊时可根治性手术术后仍有50%患者1年内早期复发是长期生存率低20%-30%的核心原因。现有不足缺乏可靠的ER预测系统传统CT依赖视觉评估无法充分挖掘肿瘤异质性影像组学研究多聚焦肿瘤内区域忽视肿瘤周围微环境的预后价值身体成分营养代谢指标是复发风险因素但常被排除在预测模型外机器学习模型虽预测能力强但存在“黑箱”问题临床信任度低。研究契机需开发整合多维度特征、可解释的机器学习模型填补PDAC术后ER预测的临床空白。研究目标开发并验证整合“肿瘤内肿瘤周围CT影像组学”与“CT量化身体成分”的机器学习模型预测PDAC根治术后ER风险通过SHAP方法解析模型决策逻辑提升可解释性推动模型向临床转化对比不同算法与模型影像组学、临床、临床-影像组学、临床病理-影像组学的性能筛选最优预测方案。03数据和方法研究数据数据来源4家医院2014年6月至2023年12月患者数量共589例分为训练集320例内部验证集138例外部验证集131例数据类型术前CT图像、临床资料、术后病理、身体成分指标VFI、VSR等结局指标早期复发ER术后1年内复发技术方案影像处理使用ITK-SNAP手动勾画瘤内与瘤周ROI提取1106个影像组学特征。特征选择ICC 0.75保留mRMR LASSO进一步降维。模型构建6种ML算法LR, SVM, RF, ExtraTrees, LightGBM, MLP构建4类模型纯影像组学模型临床模型临床-影像组学融合模型临床病理-影像组学组合模型可解释性使用SHAP分析特征贡献度。验证方式内部外部验证5折交叉验证。04实验结果图Fig.2内部验证队列中不同影像组学模型的性能雷达图对比“肿瘤内影像组学模型Intra”“肿瘤周围影像组学模型Peri”“肿瘤内-周围影像组学模型IntraPeri”在内部验证队列中基于6种算法的6项性能指标AUCROC曲线下面积、ACC准确率、SEN灵敏度、SPE特异度、PPV阳性预测值、NPV阴性预测值子图对应算法如下A逻辑回归LRB支持向量机SVMC随机森林RFD极端随机树ExtraTreesE轻量级梯度提升机LightGBMF多层感知机MLP。关键结果无论采用何种算法IntraPeri模型性能均优于Intra模型与Peri模型尤其在AUC、SEN、NPV指标上优势显著6种算法中RF算法的IntraPeri模型表现最优AUC达0.849ACC0.812SEN0.841SPE0.783PPV0.795NPV0.831各指标均处于雷达图最外层LR、MLP算法的整体性能较弱即使是IntraPeri模型AUC也低于0.75。Fig.3外部验证队列中不同影像组学模型的性能雷达图同Fig.2的模型与算法对比框架但数据来源为外部验证队列独立中心131例患者同样评估AUC、ACC、SEN、SPE、PPV、NPV6项指标子图对应算法与Fig.2完全一致A-LR至F-MLP。关键结果趋势与内部验证队列一致IntraPeri模型性能始终优于Intra、Peri模型且RF算法的IntraPeri模型仍为最优RF-IntraPeri模型在外部验证中的性能AUC0.839ACC0.771SEN0.847SPE0.708PPV0.704NPV0.850——虽较内部验证略有下降如AUC从0.849降至0.839但仍保持高预测能力证明模型泛化性良好其他算法如SVM、LightGBM的IntraPeri模型在外部验证中AUC约0.81低于RF但高于LR、MLP。Fig.4不同模型的校准曲线与决策曲线对比4类模型临床模型、影像组学模型、临床-影像组学模型、联合模型临床病理-影像组学在训练集、内部验证集、外部验证集中的“拟合度”校准曲线与“临床效用”决策曲线A-C.校准曲线Calibrationcurvesx轴为“模型预测的早期复发概率”y轴为“实际观察到的早期复发概率”对角线代表“预测与实际完全一致”曲线与对角线的贴合度越高模型拟合度越好同时标注拟合优度p值。D-F.决策曲线Decisioncurvesx轴为“阈值概率”临床决策中判定为“高风险”的临界值y轴为“净获益”真阳性获益减去假阳性损失曲线越靠上代表在该阈值范围内模型的临床实用价值越高。关键结果校准曲线A-C联合模型在三个队列中拟合度最优训练集p0.674内部验证集p0.372外部验证集p0.217p值越大与实际越贴合临床模型拟合度最差尤其在外部验证集p0.013显著偏离对角线预测偏差大。决策曲线D-F联合模型在广泛阈值范围内训练集0.0-1.0、内部验证集0.0-0.85、外部验证集0.0-0.8净获益最高且显著高于“所有患者均判定为复发”“所有患者均判定为无复发”的极端策略影像组学模型、临床-影像组学模型的净获益次之临床模型最低。Fig.5SHAP全局模型解释图基于SHAP方法解析联合模型的全局决策逻辑聚焦“特征重要性”与“特征-风险关联”A.SHAP条形图Barplotx轴为“平均绝对SHAP值”值越大特征对预测结果的贡献越显著y轴为预测特征如影像组学特征、辅助治疗、CA199、LVI等展示特征重要性排序。B.SHAP小提琴图Violinplotx轴为“SHAP值”正SHAP值增加ER风险负SHAP值降低ER风险y轴为特征每个特征对应一个“小提琴分布”颜色梯度代表特征值红色高特征值蓝色低特征值展示特征值与SHAP值的关联分布。C-D.SHAP依赖图DependenceplotC图x轴为“影像组学特征值”y轴为“影像组学特征的SHAP值”颜色代表“辅助治疗”分类变量有/无展示影像组学特征与ER风险的关系及辅助治疗的交互作用D图x轴为“内脏脂肪指数VFI值”y轴为“VFI的SHAP值”颜色代表“影像组学特征值”展示VFI与ER风险的关系及影像组学特征的交互作用。关键结果特征重要性A图肿瘤内-周围影像组学特征贡献最大平均绝对SHAP值0.25其次为辅助治疗、CA199、淋巴血管侵犯LVI、血小板-淋巴细胞比值PLR、VFI、CA125等。特征-风险关联B图高影像组学特征值、无辅助治疗、高CA199、LVI阳性、高PLR、高VFI均对应“正SHAP值”显著增加ER风险低特征值则对应“负SHAP值”降低ER风险。交互作用C-D图C图影像组学特征值越高SHAP值越高ER风险越高且“无辅助治疗”患者特定颜色的SHAP值增幅更显著D图VFI值越高SHAP值越高ER风险越高且“高影像组学特征值”患者特定颜色的SHAP值增幅更显著。Fig.6SHAP局部模型解释图通过具体病例展示联合模型的个体预测逻辑聚焦“单患者风险贡献”A-B.低危患者无ERA图瀑布图Waterfallplotx轴为“预测概率”从“基线概率”全队列平均ER概率50.1%开始依次叠加各特征的“SHAP贡献值”蓝色降低风险红色增加风险最终得到“患者实际预测概率”18.0%B图力图Forceplot结构与瀑布图一致以“箭头方向”左降低风险右增加风险直观展示特征贡献。C-D.高危患者有ERC-D图结构同A-B但患者最终预测概率为99.9%远高于基线50.1%红色特征如无辅助治疗、高CA199、LVI阳性贡献显著。E.训练集力图Forceplotfortrainingsetx轴为“训练集患者”y轴为“特征贡献”每个患者对应一组“红蓝线段”红色增加ER风险蓝色降低ER风险线段越长贡献越显著红色占比越高患者ER预测概率越高。关键结果低危患者A-B影像组学特征蓝色、有辅助治疗蓝色、低CA199蓝色、TNM≤IIA期蓝色是“降低风险”的核心因素LVI阳性红色、高PLR红色虽增加风险但整体被“保护因素”抵消最终预测概率18.0%。高危患者C-D无辅助治疗红色、高CA199红色、高影像组学特征值红色、LVI阳性红色是“增加风险”的核心因素且贡献远大于“保护因素”最终预测概率99.9%。全训练集E图ER患者已知结局的红色线段占比显著高于无ER患者证明模型预测与实际结局高度匹配。05讨论创新点与技术亮点多维度整合突破单一肿瘤视角纳入患者全身代谢状态脂肪/肌肉分布可解释AISHAP揭示内脏脂肪堆积→促炎微环境→肿瘤复发的生物学通路方法学严谨性1000次Bootstrap验证特征稳定性 双中心外部验证。局限性回顾性设计可能存在选择偏倚如排除新辅助化疗患者单时间点CT未动态监测术后身体成分变化对复发的影响泛化性挑战外部验证仅来自中国患者需欧美队列验证。临床价值风险分层工具预测概率90%患者可提前启动二线治疗营养干预靶点提示控制内脏脂肪或成辅助治疗新方向如代谢手术联合化疗。未来方向前瞻性验证模型在真实世界的临床效用探索影像组学特征与分子标志物如KRAS突变的关联机制。该研究通过多模态数据融合和可解释AI技术构建了PDAC术后早期复发的高精度预测模型AUC0.88其创新性在于揭示身体成分-肿瘤微环境-复发风险的关联为胰腺癌精准医疗提供了新工具。成果发表于外科顶刊International Journal of Surgery彰显临床转化潜力。