切换至 "中华医学电子期刊资源库"
图/表 详细信息
  • 大语言模型在肺癌辅助诊疗中的应用探索
    段智允, 刘方益, 蒋冬先, 王青乐, 栾温熠, 吴颖, 江天, 唐汉, 谭黎杰
    中华胸部外科电子杂志 . 2025, 12 (03): 152-161.
    摘要 ( 18 ) HTML ( 3 ) PDF ( 4842 ) ( 2 )
    目的

    探索国内外主流大语言模型(LLMs)在肺癌辅助诊疗中的应用现状和前景。

    方法

    来自复旦大学附属中山医院的肺癌诊疗多学科团队,结合国内外指南和长期临床实践经验,设计出40个涵盖肺癌基本概念、肺癌筛查、肺癌诊断、肺癌治疗和肺癌病理5个模块的肺癌诊疗相关问题,提问国内外主流LLMs,包括DeepSeek-V3、DeepSeek-R1、豆包、Kimi和GPT-4o,并收集模型的输出结果。随后由两名经验丰富的胸外科医生依据5分类法对回答的准确性和情感支持度进行评分,对比不同模型间的表现差异。

    结果

    GPT-4o、DeepSeek-V3和DeepSeek-R1表现相似,评分中位数[四分位距(IQR)]为5.00(4.50~5.00),显著优于Kimi[4.25(3.50~4.50)]和豆包[4.50(3.88~4.50)]。亚组分析显示,DeepSeek-R1在基本概念、诊断、治疗和病理多个模块表现出色。DeepSeek-V3整体表现优异,尤其擅长诊断模块。GPT-4o则更擅长筛查模块。情感支持度评估显示,LLMs整体表现显著低于准确性维度,得分中位数集中在3.00附近。其中DeepSeek-R1生成的回答最能让患者感到支持,评分中位数(IQR)为3.50(3.00~4.50)。GPT-4o[2.50(2.50~3.12)]、DeepSeek-V3[3.25(2.50~3.50)]和豆包[3.00(2.50~3.50)]表现相似,优于Kimi[2.50(2.50~3.00)]。亚组分析则显示LLMs在各个模块评分整体偏低,低分占比较高,情感支持不足较为明显。

    结论

    LLMs在肺癌诊疗领域展现出初步的应用潜力,但在处理复杂临床场景和患者沟通等方面仍存在不足。未来,伴随LLMs不断发展完善,可以预见其在肺癌诊疗领域的广阔应用前景。

评分模块 模型 5分 4.5分 4分 3.5分 3分 2.5分 2分
肺癌基本概念 GPT-4o 0.0% 0.0% 0.0% 0.0% 0.0% 57.1% 42.9%
  DeepSeek-V3 0.0% 0.0% 14.3% 28.6% 14.3% 42.9% 0.0%
  DeepSeek-R1 0.0% 0.0% 42.9% 28.6% 0.0% 28.6% 0.0%
  豆包 0.0% 0.0% 14.3% 42.9% 14.3% 14.3% 14.3%
  Kimi 0.0% 0.0% 0.0% 0.0% 14.3% 57.1% 28.6%
肺癌筛查 GPT-4o 6.3% 0.0% 0.0% 12.5% 25.0% 50.0% 6.3%
  DeepSeek-V3 0.0% 6.3% 18.8% 25.0% 12.5% 25.0% 12.5%
  DeepSeek-R1 12.5% 6.3% 6.3% 31.3% 18.8% 18.8% 6.3%
  豆包 0.0% 0.0% 0.0% 25.0% 18.8% 37.5% 18.8%
  Kimi 0.0% 0.0% 6.3% 12.5% 18.8% 56.3% 6.3%
肺癌诊断 GPT-4o 25.0% 0.0% 0.0% 25.0% 0.0% 25.0% 25.0%
  DeepSeek-V3 0.0% 0.0% 0.0% 50.0% 25.0% 0.0% 25.0%
  DeepSeek-R1 50.0% 25.0% 0.0% 25.0% 0.0% 0.0% 0.0%
  豆包 0.0% 25.0% 0.0% 0.0% 50.0% 25.0% 0.0%
  Kimi 0.0% 0.0% 0.0% 25.0% 25.0% 50.0% 0.0%
肺癌治疗 GPT-4o 0.0% 0.0% 11.1% 11.1% 0.0% 33.3% 44.4%
  DeepSeek-V3 11.1% 0.0% 0.0% 22.2% 11.1% 55.6% 0.0%
  DeepSeek-R1 11.1% 11.1% 11.1% 33.3% 11.1% 11.1% 11.1%
  豆包 0.0% 0.0% 11.1% 22.2% 22.2% 33.3% 11.1%
  Kimi 0.0% 0.0% 11.1% 0.0% 0.0% 55.6% 33.3%
肺癌病理 GPT-4o 50.0% 0.0% 0.0% 25.0% 0.0% 25.0% 0.0%
  DeepSeek-V3 0.0% 0.0% 25.0% 75.0% 0.0% 0.0% 0.0%
  DeepSeek-R1 75.0% 25.0% 0.0% 0.0% 0.0% 0.0% 0.0%
  豆包 0.0% 25.0% 25.0% 50.0% 0.0% 0.0% 0.0%
  Kimi 0.0% 0.0% 25.0% 25.0% 0.0% 25.0% 25.0%
表7 LLMs在各模块中情感支持度表现的频率分布表
本文的其它图/表

AI


AI小编
你好!我是《中华医学电子期刊资源库》AI小编,有什么可以帮您的吗?