AI导读:

随着AI技术普及,黑客利用安全漏洞滥用AI系统事件频发。科技巨头正开发新技术减少滥用风险。AI“越狱”手段多样,防护技术如“宪法分类器”、“提示词防护盾”等应运而生,但面临成本与谨慎性平衡挑战。

随着人工智能(AI)技术的快速普及,黑客利用新的安全漏洞和“越狱”方法滥用AI系统的事件层出不穷。这些行为不仅实施网络攻击、传播不当信息,还制造安全风险,甚至可能引发重大犯罪行为。鉴于此,全球科技巨头正竞相开发新技术,力求在保持AI模型功能性的同时,有效减少其被滥用的风险。

AI“越狱”现象日益严重。IBM网站对此解释为:当黑客绕过道德准则,利用AI系统中的漏洞操纵AI模型生成非法或危险信息时,即视为AI“越狱”。黑客常用的手段包括提示词植入、角色扮演诱导、DAN(ChatGPT的特殊运行模式)以及敏感词拆分等。这些技术通过精心设计的提示,诱导模型偏离安全防护规则,生成潜在有害内容,可能引发数据泄露、系统失控等严重后果。

研究发现,在无保护措施的情境下,生成式AI“越狱”攻击的成功率高达20%,攻击者仅需42秒及5次交互便能突破防线,某些情况下甚至在4秒内就能完成攻击。这凸显了当前生成式AI模型算法中的重大漏洞。

AI“越狱”事件频发,归因于AI技术的飞速进步、AI工具的可获取性提升以及对未经过滤输出的需求增长。安全专家指出,生成式聊天机器人的易用性使得普通人也能尝试获取危险信息。

为应对这一挑战,科技巨头如微软和元宇宙平台公司正竭力为AI设立“防护栏”,确保其安全可控。例如,AI初创公司Anthropic推出了“宪法分类器”系统,作为大语言模型的保护层,监测输入和输出内容中的有害信息。该系统基于一套“宪法”规则,可灵活调整以涵盖不同类型材料。在“宪法分类器”的保驾护航下,Anthropic公司的模型抵御了超过95%的恶意尝试。

微软也推出了“提示词防护盾”工具,实时侦测并阻止诱导AI模型“越狱”的提示词攻击,并攻克了“间接提示词输入”难题。此外,微软还推出了一项新功能,当AI模型编造内容或产生错误反应时,会迅速提醒用户。

虽然这些防护技术在提升AI安全性方面发挥了重要作用,但也存在一些问题。审核措施的介入可能使模型变得过于谨慎,拒绝一些无害请求。同时,“宪法分类器”等技术的运行耗费大量计算资源,增加了运行AI模型的成本。

因此,如何在保障AI安全与降低成本之间找到平衡,仍是当前亟待解决的问题。

(文章来源:科技日报)