发布时间:2026-02-10
信息来源:中国科学报
字体:
大
中
小
打印
发布时间:2026-02-10
信息来源:中国科学报

大语言模型有望改变医疗资源匮乏地区的现状。图片来源:Guerchom Ndebo
2月6日,两项发表于《自然-健康》的研究表明,成本低廉的大语言模型(LLM)能够在医疗资源有限的地区提高诊断成功率。在卢旺达和巴基斯坦的卫生保健环境中,其表现甚至超过了训练有素的临床医生。
在卢旺达,聊天机器人在各项评估指标上的得分均超过当地临床医生;而在巴基斯坦,使用LLM辅助诊断的医生平均诊断推理得分为71,而使用传统资源的医生得分为43。
“这些论文凸显了LLM可助力中低收入国家临床医生提高护理水平。”英国牛津大学人工智能(AI)伦理研究所的Caroline Green说。
在医学领域,LLM不仅能通过医学研究生的水平考试,还能帮助临床医生进行诊断。不过,这些均为受控基准测试中的表现。那么,在无法核对答案、患者众多且资源有限的真实环境中,LLM表现究竟如何呢?为找到答案,两个独立研究团队分别在卢旺达与巴基斯坦进行了研究。
在卢旺达,研究人员测试了LLM能否在4个卫生资源匮乏地区为患者提供准确的临床信息。“这些地区面临医护人员短缺问题,无法接诊全部患者,多数患者由培训不足的社区工作者来接诊和分诊。”该研究作者、非营利性国际健康组织PATH的首席AI官Bilal Mateen说。
Mateen团队让当地约100名社区卫生工作者编制了一份包含5600个临床问题的清单,均为患者最常提出的问题。研究人员将5个LLM对其中约500个问题的回答,与经过培训的当地临床医生的回答进行了对比。结果显示,在11个评价指标上,所有LLM的表现均优于当地医生。此外,LLM还可使用卢旺达语回答约100个问题。
Mateen表示,与人类相比,LLM还有另一个优势——可全天候接受社区健康工作者的咨询。此外,LLM成本低廉——医生的费用为5.43美元、护士为3.80美元,而LLM用英语回答的成本为0.0035美元、用卢旺达语回答的成本为0.0044美元。
但美国贝斯以色列女执事医疗中心的临床和AI研究员Adam Rodman对将LLM与人类表现进行比较持怀疑态度,认为基于书面答案的评估机制更适合衡量模型性能,对人类表现则不那么有效。
在巴基斯坦,由拉合尔管理科学大学的计算机科学家Ihsan Qazi领导的研究团队,对LLM在真实环境中的应用进行了研究。结果发现,在缺乏医学专家、患者数量庞大、诊断错误率高的巴基斯坦,LLM可以提高诊断准确性。
Qazi团队进行了一项随机对照试验——58名执业医师接受了20小时培训,学习如何使用LLM来辅助诊断患者症状,并警惕程序可能出现的错误或“幻觉”。结果表明,在审查临床病例时,访问GPT-4o LLM的医生的诊断准确性评分显著高于仅使用生物医学数据库PubMed和互联网的医生。
分析发现,LLM得分甚至高于由其辅助的医生,但也存在例外——在31%的病例中,医生表现优于AI的中位数表现。“这些病例多涉及临床警示特征、背景因素,而这正是LLM所遗漏的。”Qazi说。
Qazi预计,上述研究结果也适用于其他国家,但仍需使用不同模型开展重复验证。
Green提醒,LLM存在偏见和患者数据保密性问题,需高度警惕,绝不能采纳由LLM提供的片面医疗保健理念。Qazi则警告,对AI的依赖可能导致医生不加质疑地接受有缺陷的答案,如研究中发现的遗漏临床警示特征、背景因素等案例。
相关人物