AI导读:

上海人工智能实验室利用强化学习方法,让大模型突破专业围棋水平,并首次打破围棋思维“黑盒”,为大模型处理复杂推理任务奠定基础,推动“通专融合”落地。

  棋类运动往往被视为人们了解人工智能最新突破的窗口,比如近30年前的“深蓝”计算机和近10年前的阿尔法狗(AlphaGO)。近期,上海人工智能实验室的科研团队运用强化学习方法,成功让大模型从不会下棋提升至超越专业围棋水平。据职业选手估算,这款名为“书生·思客”的大模型棋力已达到职业3-5段。

  在人工智能领域,“大模型”首次打破了围棋思维的“黑盒”。上海人工智能实验室青年科学家陈恺指出,围棋是一项公认的复杂任务,任务越复杂,通过语料习得的可能性往往越低。这一突破为大模型处理复杂推理任务,乃至解决科学发现等难题奠定了坚实基础。

  去年的世界人工智能大会上,上海人工智能实验室主任、首席科学家周伯文提出了“通专融合”的大模型发展技术路线。当时,这一理念尚难被公众完全理解,而今,“通专融合”的里程碑已然到来——大模型能够通过与环境的交互反馈,在专业任务上实现能力提升。

打破“黑盒”,像人脑一样下围棋

  2016年,阿尔法狗击败围棋世界冠军李世石,震撼了全球。然而,从现在的角度看,阿尔法狗更像是一个专为围棋设计的专业模型,专注于19乘19的棋盘,将全部算力用于思考下一步棋的落子位置,且其思考过程完全是一个“黑盒”。陈恺解释说:“阿尔法狗以下棋方式令人费解,有时会走出令人惊叹的棋步,但为何能走出这样的高招,当时难以给出合理解释。”

书生·思客应对李世石“神之一手”,语言风格风趣幽默。受访者提供

  若大模型能够打破这一“黑盒”,便意味着其推理能力迈上了新台阶。为持续提升大模型的推理能力,上海人工智能实验室青年研究员李林阳及其团队利用强化学习算法,为大模型构建了一个“加速训练营”,使其像初学者一样探索围棋的下法。通过评价建模,与大模型进行交互并提供反馈,推动模型持续进化。

  经过不断训练,大模型的棋力迅速提升。“有一天,我们发现大模型的下棋成功率从30%跃升至70%,由此,我们观察到了‘智能涌现’的现象,即人们常说的‘啊哈时刻’。”李林阳说。

  经过“加速训练营”强化的大模型不仅棋力大幅提升,还成功打破了围棋思维的“黑盒”。在对弈时,它能够科学、直观地“讲解”下棋思路,真正做到了“像人脑一样下围棋”。大模型的“语言”风格多样,当用户下出好棋时,它会给予鼓励:“这步棋非常有力,堪称‘以攻代守’的妙招。”当用户局势不利时,它会化身“鸡汤大师”:“只要应对得当,胜负仍未可知。”

探索大模型推理能力提升的新范式

  围棋术语中的“试应手”指的是通过一步棋试探对方的反应,为后续变化做准备。从某种程度上说,上海人工智能实验室的此次突破相当于提升大模型推理能力的“试应手”。李林阳认为,这次“试应手”的意义不在于研发一个会下棋的大模型,而在于通过大模型与环境的交互来提升其能力,从而获得处理复杂事物的能力。

  陈恺指出,这一突破对于解决其他领域的复杂问题同样具有重要意义,如科学任务。科学任务中的语料不仅数量稀少,而且收集困难,这也限制了科学垂类大模型的迭代。除了围棋,“书生·思客”还在奥赛级数学、科学对象理解与推理、算法编程、棋类游戏、智力谜题等多个专业任务上实现了同步学习和演进,并在多任务混合强化学习过程中出现了智能“涌现时刻”。

  当大模型具备解决复杂问题的方法论后,提出有价值的问题变得更为重要。下个月,上海人工智能实验室将举办首届明珠湖会议,以“寻找定义AI未来的提问者”为目标,聚焦一批影响科学与未来的前沿课题。

“有组织科研”推动“通专融合”落地

  “当初步探索取得实质性进展后,我立即向实验室申请了人员和算力支持,在充足的人手和算力保障下,项目的准确率迅速提升至90%以上。”李阳林说,他于2023年以实习生的身份加入实验室,如今已开始带领团队开展“通专融合”技术路径可行性的相关研究。

  在上海人工智能实验室的技术愿景中,“通专融合”是实现通用人工智能(AGI)的战略路径。这一路径的关键在于同步提升深度推理与专业泛化能力,使模型不仅在广泛的复杂任务上表现出色,还能在特定领域中达到专业水平。

  陈恺表示,上海人工智能实验室正以“有组织的科研”推动“通专融合”:一方面,各团队有明确的研究方向,可形成规模效应;另一方面,团队成员的专业研判有助于迅速把握技术趋势,快速产出创新成果。

  在带领团队攻关“书生·思客”的项目中,李阳林深刻感受到了实验室的人才密度和科研资源的丰富。自2022年以来,上海人工智能实验室与多所国内顶尖高校合作开展博士生联合培养项目,目前已有近800名本科生和研究生通过联培博士项目入选实验室,其中不乏AI细分领域的佼佼者。这些年轻人的不断加入和快速成长,正在推动更多“啊哈时刻”的到来。

(文章来源:上观新闻)