

大型语言模型Claude家族的制造商Anthropic本周更新了其软件安全控制政策,以反映其所说的恶意行为者利用人工智能模型实现网络攻击自动化的可能性。
这份PDF文件详细介绍了该公司的“负责任的扩展政策”,概述了几项程序上的变化,该公司表示,这些变化需要监控人工智能模型被滥用的持续风险。这包括几个级别的风险升级,被称为人工智能安全级别标准(ASL),定义为“技术和操作保障措施”。
作为该公司对人工智能模型进行安全“常规测试”(即“能力评估”)的一部分,Anthropic报告称,它发现了一种“需要进行重大调查,可能需要更强有力的保障措施”的能力。
这种能力被描述为网络行动中的一种威胁:“能够显著增强或自动化复杂的破坏性网络攻击,包括但不限于发现新的零日漏洞利用链,开发复杂的恶意软件,或精心策划广泛的难以检测的网络入侵。”
报告描述了将采取的措施,以便不断调查这一问题:
该公司表示,目前,所有Anthropic的人工智能模型都必须满足美国手语“二级”要求。该报告指出,这一级别“需要一个能够阻止大多数机会主义攻击者的安全系统,包括供应商和供应商的安全审查、物理安全措施和设计安全原则的使用”。
在关于应该或不应该做些什么来监管人工智能技术的持续辩论中,更新的政策可以被视为Anthropic和OpenAI自愿承诺限制人工智能的努力的一部分。今年8月,该公司和OpenAI与美国商务部国家标准与技术研究院(NIST)的美国人工智能安全研究所达成协议,就人工智能的研究、测试和评估进行合作。
人工智能自动化网络攻击的想法已经流传了一段时间。防火墙供应商Check Point Software Technologies去年警告称,来自俄罗斯的国家黑客正试图入侵OpenAI的ChatGPT,以实现网络钓鱼攻击的自动化。
终端安全软件供应商CrowdStrike今年夏天报告称,生成式人工智能很容易受到大量特制提示的攻击,这些提示可能会破坏程序的护栏。