研究表明21种主流大模型尚不具备独立临床诊疗能力
美国麻省总医院MESH孵化器团队在《JAMA Network Open》发表最新研究成果,对ChatGPT、DeepSeek、Claude等21种主流大语言模型进行临床测试。结果显示,当获得完整患者信息时,所有模型在90%以上的病例中能给出正确最终诊断,但在早期诊断阶段表现欠佳,80%以上的情况下无法提出合理的“鉴别诊断”——这一临床推理的核心能力。研究团队提出PrIME-LLM新指标,综合评估模型从诊断到治疗方案制定的全流程能力,发现各模型整体评分仅在64%至78%之间。团队强调,当前大模型更擅长“信息完备下的答案输出”,不适合无监督直接用于临床实践,核心价值在于辅助医生决策,而非取代医生。
免责声明:本站所有信息均来源于互联网搜集,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻删除。






