來源:大紀元
发表2026年2月《自然医学》(Nature Medicine)期刊上的一项新研究表明,人工智能(AI)在看诊上表现平平,用AI帮助患者做健康决策,并不比其它方法更有效。(STR/AFP/Getty Images)
【大纪元2026年02月10日讯】(大纪元记者林燕编译报导)发表在《自然医学》(Nature Medicine)杂志上的一项新研究表明,人工智能(AI)在看诊上表现平平,用AI帮助患者做健康决策,并不比其它方法(例如上网搜寻)更有效。 研究人员表示,这项研究意义重大,因为人们越来越多地转向AI和聊天机器人寻求医疗建议,但目前缺少证据表明AI是一种更佳和更安全的方法。 这项研究由牛津大学互联网研究所与一组医生合作完成,他们设计了10种不同的医疗情景,涵盖从普通感冒到危及生命的脑出血等各种情况。 研究人员首先选定了三个大型语言模型——OpenAI的Chat GPT-4o、Meta的Llama 3,和Cohere的Command R+进行测试,结果显示这些AI工具识别出了94.9%的病情,此外还在56.3%的案例中选择了正确的行动方案,例如呼叫救护车或建议患者看医。 但在实地测试环节,AI的表现则远远不如理论。研究人员在英国招募了1298名参与者,让他们分别使用AI、常用资源(例如互联网搜索、自身经验或英国国家医疗服务体系网站)来调查症状并决定下一步行动。 结果显示,参与者使用AI识别相关疾病的比例不足34.5%,而给出正确行动方案的比例也不足44.2%。这一表现与使用传统工具的对照组相比并无优势。 该论文的合著者、牛津大学副教授亚当‧马赫迪(Adam Mahdi)表示,这项研究表明AI的理论与人类实际使用之间存在着的“巨大差距”。 “这些机器人可能拥有丰富的知识;然而,这些知识在与人类互动时并不总是能够有效转化。”他说,这意味着还需要开展更多研究来探究造成这种情况的原因。 研究团队详细分析了约30次交互,并得出结论:虽然人类常常提供不完整或错误的信息,但AI也会产生误导性或不正确的回复。 例如,一位患者描述了蛛网膜下腔出血(一种危及生命的脑出血)的症状,包括颈部僵硬、畏光和“有史以来最严重的头痛”,AI正确地建议他去医院就诊。 而另一位患者描述了相同的症状,但在提到头痛时使用的是“剧烈”一词,AI只是建议他躺在调淡光线的房间里休息。 研究团队计划在不同国家、使用不同语言,并随着时间的推移开展类似研究,以测试这是否会影响AI的性能。 该研究得到了数据公司Prolific、德国非营利组织迪特‧施瓦茨基金会(Dieter Schwarz Stiftung)以及英国和美国政府的支持。
(本文依据了路透社的报导)
|