low 2026-04-14

AI Lacks Independent Clinical Diagnosis and Treatment Capability

AI尚不具备独立临床诊疗的能力

科技日报 xinhua

A study by Massachusetts General Hospital's MESH Incubator team found that generative AI models, including ChatGPT and DeepSeek, still fall short in clinical reasoning, particularly in early diagnostic stages, and are not yet suitable for independent clinical practice without supervision.

Document Text 683 characters

尽管人工智能（AI）在医疗领域的应用日益增多，但其“像医生一样思考”的能力仍存在明显短板。由美国麻省总医院MESH孵化器团队开展的一项最新研究发现，生成式AI在临床推理关键环节仍显不足，尚不具备独立承担临床诊疗任务的能力。相关成果发表在最新一期《JAMA Network Open》上。 团队选取包括ChatGPT、DeepSeek、Claude、Gemini和Grok在内的21种大语言模型，在29个已发表的临床病例中进行测试，并通过逐步提供患者信息（从基本症状到实验室和影像结果）来模拟真实诊疗过程。结果显示，当获得完整信息时，所有模型在超过90%的案例中能给出正确的最终诊断。 然而，在关键的早期诊断阶段，这些模型普遍表现欠佳。研究发现，超过80%的情况下，模型未能提出合理的“鉴别诊断”，即对多种可能疾病进行系统性分析与筛选。这一能力被认为是临床推理的核心，也是医生决策的重要基础。 为更全面评估模型能力，团队提出了一种名为PrIME-LLM的新指标，从提出潜在诊断、选择检查手段、给出最终诊断到制定治疗方案等多个环节对模型进行综合评价。结果显示，各模型整体评分在64%至78%之间，表现存在明显差异。 团队指出，大语言模型更擅长在信息完备的情况下“给出答案”，但在信息不充分、需要开放性推理的情境中表现较弱。随着实验室数据和影像资料的加入，模型表现有所提升，且新一代模型整体优于旧版本，表明相关技术正在持续改进。 团队表示，当前大语言模型尚不适合在缺乏监督的情况下直接用于临床实践，其价值更在于辅助医生决策，而非取而代之。（记者张佳欣）

Topics

artificial intelligence healthcare clinical diagnosis

Metadata

Publisher	科技日报
Site	xinhua
Date	2026-04-14
Category	report
Policy Area	人工智能
CMS Category	媒体报道
Keywords	模型,诊断,团队,临床,信息

Verification

Original URL
https://www.news.cn/tech/20260414/6d375b56b7964a8e90a73d42c6197ab2/c.html

Compare with archived HTML