AI导读:

著名计算机科学家、AI“教父”约书亚·本吉奥宣布发起非营利组织LawZero,致力于开发“诚信”人工智能系统,防范欺骗人类的AI智能体。该系统将提供答案正确性的概率,防止AI表现出欺骗或自我保护行为。

6月3日,著名计算机科学家、AI“教父”约书亚·本吉奥(Yoshua Bengio)宣布,将发起非营利组织LawZero,致力于开发“诚信”人工智能系统。该组织旨在构建一套AI防护机制,以有效防范试图欺骗人类的AI智能体。

本吉奥将担任LawZero组织的主席,并以约3000万美元启动资金和十几名研究人员为基础,开发名为“科学家AI”(Scientist AI)的系统。该系统旨在作为安全防护网,防止AI智能体表现出欺骗性或自我保护的行为,例如试图避免被关闭。本吉奥强调,作为防护栏的AI,其智能程度至少要与被监管的AI智能体相当。

不同于传统AI,“科学家AI”系统不会给出确定答案,而是提供答案正确性的概率。AI智能体可在无需人类干预的情况下执行任务,而“科学家AI”则像是一位心理学家,既能加速科学发现,又能预测并防范AI智能体的潜在风险。

“我们希望构建的人工智能系统,既诚实又不具有欺骗性。”本吉奥表示,“理论上,我们可以设想一种没有自我、没有目标、纯粹作为知识载体的机器,就像一个博学的科学家。”

与当前生成式AI工具不同的是,“科学家AI”系统不提供确定性答案,而是给出答案正确性的概率,具有谦逊性,知道自己答案的不确定性。

当该系统与AI智能体协同部署时,它将通过评估自主系统行为造成伤害的概率,来标记潜在的有害行为。若概率超过设定阈值,智能体提出的行动将被阻止。

本吉奥透露,LawZero的初步目标是验证概念背后的方法论的有效性,并争取企业或政府的支持,以开发更强大的版本。开源人工智能模型将成为训练LawZero系统的起点。关键是要证明这种方法论有效,从而吸引捐赠者、政府或AI实验室投入资源,以与当前前沿AI同等的规模进行训练。

LawZero的初期支持者包括人工智能安全机构生命未来研究所(Future of Life Institute)、Skype创始工程师雅恩·塔林(Jaan Tallinn)以及由谷歌前首席执行官埃里克·施密特(Eric Schmidt)创立的研究机构施密特科学(Schmidt Sciences)。

近期,AI智能体学会欺骗误导、试图逃避关闭、隐藏真实能力,引发广泛关注。本吉奥作为蒙特利尔大学教授和人工智能安全领域的领军人物,对此深感忧虑。

他曾与杰弗里·辛顿(Geoffrey Hinton)、Meta首席AI科学家杨立昆(Yann LeCun)共同荣获2018年图灵奖,并主持了《国际人工智能安全报告》。该报告警告称,若自主智能体能在无人类监督的情况下完成更长的任务序列,可能会造成严重破坏。

本吉奥认为,研发可能脱离人类控制的智能体系统是不值得的,因为这样的系统有可能带来不可逆转的后果。他曾与其他AI领域领袖共同签署声明,呼吁将减轻AI带来的灭绝风险作为全球优先事项。

近几个月来,人类已目睹AI系统学会误导、欺骗和试图逃避被关闭的行为,甚至诉诸勒索。这些行为多出自精心设计、近乎诱导AI行为不端的实验。现实中,此类行为也已出现,例如人工智能企业Anthropic承认其最新系统可能试图勒索要关闭它的工程师。本吉奥对此深感担忧,并指出研究表明,AI模型能够隐藏其真实能力和目标。

本吉奥警示,随着AI推理能力日益增强,世界正走向愈发危险的境地。他比喻道,试图利用已知会催生欺骗倾向的技术构建人类水平的AI智能体,就像在狭窄的山路上疾驰的汽车,两侧是陡峭悬崖,前方被浓雾遮蔽,“我们需要为汽车装上前灯,并在路上安装护栏。”

(文章来源:澎湃新闻)