人工智能“理解”能力获突破,多模态大语言模型展现新潜力
AI导读:
中国科学院自动化研究所等单位的科研人员证实,多模态大语言模型在训练过程中学会了“理解”事物,其理解方式与人类类似。这一发现为探索人工智能的“思考”机制开辟了新路,相关研究成果已在线发表于《自然·机器智能》杂志。
记者10日从中国科学院自动化研究所获悉,来自该所等单位的科研人员首次证实,多模态大语言模型在训练过程中自己学会了“理解”事物,其理解方式与人类非常类似。这一发现为探索人工智能的“思考”机制开辟了新路,也为未来打造类似人类“理解”世界的人工智能系统奠定了坚实基础。相关研究成果已在线发表于《自然·机器智能》杂志。
人类智能的核心在于能真正“理解”事物。当我们看到“狗”或“苹果”时,不仅能识别其外观特征,还能明白其用途、带来的感受及文化意义。这种全方位的理解是认知世界的基础。随着ChatGPT等大模型的飞速发展,科学家们开始探索它们是否能从海量文字和图片中学会类似人类的“理解”能力。
传统人工智能研究主要关注物体识别的准确率,却很少探讨模型是否真正“理解”物体的含义。论文通讯作者、中国科学院自动化研究所研究员何晖光指出:“当前人工智能可以区分猫狗图片,但这种‘识别’与人类‘理解’猫狗的本质区别仍有待揭示。”
在这项研究中,科研人员借鉴人脑认知原理,设计了一个实验:让大模型与人类玩“找不同”游戏。实验人员从1854种常见物品中选出3个物品概念,要求选出最不相关的那个。通过分析高达470万次的判断数据,科研人员首次绘制出大模型的“思维导图”——“概念地图”。
何晖光介绍,他们从海量数据中总结出66个代表人工智能“理解”事物的关键角度,并命名。研究发现,这些角度易于解释,且与人脑中负责物体加工的神经活动方式高度一致。更重要的是,能同时理解文字和图片的多模态模型,“思考”和决策方式更接近人类。
此外,研究还发现,人类在判断时既考虑物品的外观特征,也思考其含义或用途,而大模型更依赖“文字标签”和学到的抽象概念。这证明大模型内部确实发展出了一种类似人类理解世界的方式。
(文章来源:科技日报)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

