人工智能“理解”能力获突破，多模态大语言模型展现新潜力

财经聚焦 2025-06-11 07:22:51 来源：科技日报作者：网络

AI导读：

中国科学院自动化研究所等单位的科研人员证实，多模态大语言模型在训练过程中学会了“理解”事物，其理解方式与人类类似。这一发现为探索人工智能的“思考”机制开辟了新路，相关研究成果已在线发表于《自然·机器智能》杂志。

　　记者10日从中国科学院自动化研究所获悉，来自该所等单位的科研人员首次证实，多模态大语言模型在训练过程中自己学会了“理解”事物，其理解方式与人类非常类似。这一发现为探索人工智能的“思考”机制开辟了新路，也为未来打造类似人类“理解”世界的人工智能系统奠定了坚实基础。相关研究成果已在线发表于《自然·机器智能》杂志。

　　人类智能的核心在于能真正“理解”事物。当我们看到“狗”或“苹果”时，不仅能识别其外观特征，还能明白其用途、带来的感受及文化意义。这种全方位的理解是认知世界的基础。随着ChatGPT等大模型的飞速发展，科学家们开始探索它们是否能从海量文字和图片中学会类似人类的“理解”能力。

　　传统人工智能研究主要关注物体识别的准确率，却很少探讨模型是否真正“理解”物体的含义。论文通讯作者、中国科学院自动化研究所研究员何晖光指出：“当前人工智能可以区分猫狗图片，但这种‘识别’与人类‘理解’猫狗的本质区别仍有待揭示。”

　　在这项研究中，科研人员借鉴人脑认知原理，设计了一个实验：让大模型与人类玩“找不同”游戏。实验人员从1854种常见物品中选出3个物品概念，要求选出最不相关的那个。通过分析高达470万次的判断数据，科研人员首次绘制出大模型的“思维导图”——“概念地图”。

　　何晖光介绍，他们从海量数据中总结出66个代表人工智能“理解”事物的关键角度，并命名。研究发现，这些角度易于解释，且与人脑中负责物体加工的神经活动方式高度一致。更重要的是，能同时理解文字和图片的多模态模型，“思考”和决策方式更接近人类。

　　此外，研究还发现，人类在判断时既考虑物品的外观特征，也思考其含义或用途，而大模型更依赖“文字标签”和学到的抽象概念。这证明大模型内部确实发展出了一种类似人类理解世界的方式。

（文章来源：科技日报）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。