AI“越狱”频发，科技巨头竞相开发防护技术

财经聚焦 2025-03-17 07:41:44 来源：科技日报作者：网络

AI导读：

随着AI技术普及，黑客利用安全漏洞滥用AI系统事件频发。科技巨头正开发新技术减少滥用风险。AI“越狱”手段多样，防护技术如“宪法分类器”、“提示词防护盾”等应运而生，但面临成本与谨慎性平衡挑战。

随着人工智能（AI）技术的快速普及，黑客利用新的安全漏洞和“越狱”方法滥用AI系统的事件层出不穷。这些行为不仅实施网络攻击、传播不当信息，还制造安全风险，甚至可能引发重大犯罪行为。鉴于此，全球科技巨头正竞相开发新技术，力求在保持AI模型功能性的同时，有效减少其被滥用的风险。

AI“越狱”现象日益严重。IBM网站对此解释为：当黑客绕过道德准则，利用AI系统中的漏洞操纵AI模型生成非法或危险信息时，即视为AI“越狱”。黑客常用的手段包括提示词植入、角色扮演诱导、DAN（ChatGPT的特殊运行模式）以及敏感词拆分等。这些技术通过精心设计的提示，诱导模型偏离安全防护规则，生成潜在有害内容，可能引发数据泄露、系统失控等严重后果。

研究发现，在无保护措施的情境下，生成式AI“越狱”攻击的成功率高达20%，攻击者仅需42秒及5次交互便能突破防线，某些情况下甚至在4秒内就能完成攻击。这凸显了当前生成式AI模型算法中的重大漏洞。

AI“越狱”事件频发，归因于AI技术的飞速进步、AI工具的可获取性提升以及对未经过滤输出的需求增长。安全专家指出，生成式聊天机器人的易用性使得普通人也能尝试获取危险信息。

为应对这一挑战，科技巨头如微软和元宇宙平台公司正竭力为AI设立“防护栏”，确保其安全可控。例如，AI初创公司Anthropic推出了“宪法分类器”系统，作为大语言模型的保护层，监测输入和输出内容中的有害信息。该系统基于一套“宪法”规则，可灵活调整以涵盖不同类型材料。在“宪法分类器”的保驾护航下，Anthropic公司的模型抵御了超过95%的恶意尝试。

微软也推出了“提示词防护盾”工具，实时侦测并阻止诱导AI模型“越狱”的提示词攻击，并攻克了“间接提示词输入”难题。此外，微软还推出了一项新功能，当AI模型编造内容或产生错误反应时，会迅速提醒用户。

虽然这些防护技术在提升AI安全性方面发挥了重要作用，但也存在一些问题。审核措施的介入可能使模型变得过于谨慎，拒绝一些无害请求。同时，“宪法分类器”等技术的运行耗费大量计算资源，增加了运行AI模型的成本。

因此，如何在保障AI安全与降低成本之间找到平衡，仍是当前亟待解决的问题。

（文章来源：科技日报）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。