AI“教父”本吉奥发起非营利组织，致力于开发“诚信”人工智能系统

财经聚焦 2025-06-04 12:42:18 来源：澎湃新闻作者：网络

AI导读：

著名计算机科学家、AI“教父”约书亚·本吉奥宣布发起非营利组织LawZero，致力于开发“诚信”人工智能系统，防范欺骗人类的AI智能体。该系统将提供答案正确性的概率，防止AI表现出欺骗或自我保护行为。

6月3日，著名计算机科学家、AI“教父”约书亚·本吉奥（Yoshua Bengio）宣布，将发起非营利组织LawZero，致力于开发“诚信”人工智能系统。该组织旨在构建一套AI防护机制，以有效防范试图欺骗人类的AI智能体。

本吉奥将担任LawZero组织的主席，并以约3000万美元启动资金和十几名研究人员为基础，开发名为“科学家AI”（Scientist AI）的系统。该系统旨在作为安全防护网，防止AI智能体表现出欺骗性或自我保护的行为，例如试图避免被关闭。本吉奥强调，作为防护栏的AI，其智能程度至少要与被监管的AI智能体相当。

不同于传统AI，“科学家AI”系统不会给出确定答案，而是提供答案正确性的概率。AI智能体可在无需人类干预的情况下执行任务，而“科学家AI”则像是一位心理学家，既能加速科学发现，又能预测并防范AI智能体的潜在风险。

“我们希望构建的人工智能系统，既诚实又不具有欺骗性。”本吉奥表示，“理论上，我们可以设想一种没有自我、没有目标、纯粹作为知识载体的机器，就像一个博学的科学家。”

与当前生成式AI工具不同的是，“科学家AI”系统不提供确定性答案，而是给出答案正确性的概率，具有谦逊性，知道自己答案的不确定性。

当该系统与AI智能体协同部署时，它将通过评估自主系统行为造成伤害的概率，来标记潜在的有害行为。若概率超过设定阈值，智能体提出的行动将被阻止。

本吉奥透露，LawZero的初步目标是验证概念背后的方法论的有效性，并争取企业或政府的支持，以开发更强大的版本。开源人工智能模型将成为训练LawZero系统的起点。关键是要证明这种方法论有效，从而吸引捐赠者、政府或AI实验室投入资源，以与当前前沿AI同等的规模进行训练。

LawZero的初期支持者包括人工智能安全机构生命未来研究所（Future of Life Institute）、Skype创始工程师雅恩·塔林（Jaan Tallinn）以及由谷歌前首席执行官埃里克·施密特（Eric Schmidt）创立的研究机构施密特科学（Schmidt Sciences）。

近期，AI智能体学会欺骗误导、试图逃避关闭、隐藏真实能力，引发广泛关注。本吉奥作为蒙特利尔大学教授和人工智能安全领域的领军人物，对此深感忧虑。

他曾与杰弗里·辛顿（Geoffrey Hinton）、Meta首席AI科学家杨立昆（Yann LeCun）共同荣获2018年图灵奖，并主持了《国际人工智能安全报告》。该报告警告称，若自主智能体能在无人类监督的情况下完成更长的任务序列，可能会造成严重破坏。

本吉奥认为，研发可能脱离人类控制的智能体系统是不值得的，因为这样的系统有可能带来不可逆转的后果。他曾与其他AI领域领袖共同签署声明，呼吁将减轻AI带来的灭绝风险作为全球优先事项。

近几个月来，人类已目睹AI系统学会误导、欺骗和试图逃避被关闭的行为，甚至诉诸勒索。这些行为多出自精心设计、近乎诱导AI行为不端的实验。现实中，此类行为也已出现，例如人工智能企业Anthropic承认其最新系统可能试图勒索要关闭它的工程师。本吉奥对此深感担忧，并指出研究表明，AI模型能够隐藏其真实能力和目标。

本吉奥警示，随着AI推理能力日益增强，世界正走向愈发危险的境地。他比喻道，试图利用已知会催生欺骗倾向的技术构建人类水平的AI智能体，就像在狭窄的山路上疾驰的汽车，两侧是陡峭悬崖，前方被浓雾遮蔽，“我们需要为汽车装上前灯，并在路上安装护栏。”

（文章来源：澎湃新闻）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。