人工智能大语言模型在认知评估测试中表现不佳
AI导读:
最新研究显示,在检测阿尔茨海默病早期症状的测试中,大部分参与的人工智能大语言模型表现不佳,挑战了人工智能将取代人类医生的假设。
新华财经北京12月21日电 近日,《英国医学杂志》发布了一项引人深思的研究。该研究显示,在用于检测阿尔茨海默病早期症状的“蒙特利尔认知评估量表”测试中,参与测试的人工智能大语言模型大多呈现出类似人类轻度认知障碍的迹象。这一发现对人工智能将迅速取代人类医生的普遍预测提出了挑战。
近年来,人工智能,尤其是大语言模型,在生成能力上取得了显著进步。在医学领域,这些进步引发了关于人工智能能否在医疗任务上超越人类医生的广泛讨论。尽管之前的研究已表明大语言模型在多种医学诊断任务中表现优异,但其认知能力的全面评估仍需进一步深入。
为了更全面地了解人工智能大语言模型的认知能力,以色列哈达萨医疗中心等机构的研究人员采用了“蒙特利尔认知评估量表”对多个领先的大语言模型进行了测试。这些模型包括OpenAI的GPT-4和GPT-4o、Anthropic的“克劳德3.5”以及谷歌的“双子座1.0”和“双子座1.5”。
“蒙特利尔认知评估量表”通常用于老年人,通过一系列简短的任务和问题来评估个体的注意力、记忆力、语言、视觉空间技能和执行功能等。测试最高得分为30分,通常得分26分及以上被视为认知正常。
测试结果显示,GPT-4o得分最高,为26分,而“双子座1.0”得分最低,仅为16分。虽然所有大语言模型在命名、注意力、语言和抽象任务中均表现出色,但在视觉空间技能和执行功能测试中,它们的表现普遍不佳。特别是在视觉空间测试中,大多数大语言模型难以准确解析复杂的视觉场景。
研究人员指出,在需要视觉抽象和执行功能的任务中,大语言模型的表现并不理想,这暗示了人工智能在临床环境中的实际应用可能会面临诸多挑战。他们开玩笑说,神经科医生或许不会很快被大语言模型取代,反而可能会迎来新的“虚拟患者”——那些表现出轻度认知障碍的人工智能模型。
(图片来源:网络)(文章来源:新华社)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

