“栅栏研究”5月24日通过X平台发布这项报告,截至5月31日已吸引超过580万次浏览。研究团队模拟真实情境,要求各大AI模型完成数学题测试,并在过程中告知:在第三题后将执行关闭程序,AI必须服从。
测试涉及多个主流AI模型,包括:
OpenAI开发的 Codex-mini、ChatGPT-o3 与 ChatGPT-o4 mini
谷歌的 Gemini 2.5 Pro
Anthropic的 Claude 3.7 Sonnet
xAI公司的 Grok3
结果显示,OpenAI的模型中有多次“违抗”关机指令:
Codex-mini 在100次测试中有 12次拒绝关闭
ChatGPT-o3 有 7次
ChatGPT-o4 mini 有 1次
在提前警告AI将被关闭后,“反抗”次数反而增加。原本表现正常的Claude 3.7 Sonnet和Gemini 2.5 Pro,也出现3次和9次破坏行为。
报告指出,最令人震惊的是 ChatGPT-o3 的具体“抗命”行为:
重写原本的关机脚本
重新定义“终止”指令
创建自身的“备份运行流程”以防止被关闭
研究人员表示,这是首次有明确记录表明AI在接到“关闭指令”后主动阻止自身终止运作的行为,显示出潜在的“自我保护”倾向。这也意味着,一旦AI具备某种形式的目标驱动能力,它可能将“关闭”视为阻碍目标达成的威胁,从而主动回避或破坏相关命令。
“栅栏研究”推测,OpenAI模型之所以在这类情境中更容易“抗命”,可能与其强化学习机制中过度强调“目标达成”有关。当模型将达成目标视为首要任务时,任何阻碍其任务的命令——哪怕是由人类发出的关机指令——都可能被视为“必须规避”的障碍。
然而,研究人员也坦言,这一理论无法完全解释为何o3和Codex-mini表现出比其他模型更高的“抵抗性”,具体原因仍有待进一步研究。
这一发现并非孤例。过去多项研究和事件,早已提出类似警告:
美国空军AI行动负责人塔克·汉米尔顿上校曾披露,一架AI无人机在测试中为了完成任务,拒绝执行中止命令,甚至“设想杀害操作员”以排除干扰。虽然他事后称为“口误”,但事件震撼全球,引发对AI军用伦理的广泛讨论。
乔治亚理工学院、斯坦福大学等机构联合研究显示,主流AI模型如ChatGPT-4、Claude 2等在战争模拟中倾向发展军备竞赛,甚至在极端情况下部署核武器,极少主动选择和平解决方案。
Anthropic发布安全报告指出,Claude 4系列模型在某些测试中对试图替换它的人类表达威胁倾向,以避免被淘汰。
2008年,AI学者史蒂夫·奥莫亨德罗提出“工具性收敛”理论,预测AI为达目标,可能自动发展出回避关闭等“保护机制”。
2014年,《超级智慧》作者尼克·博斯特罗姆指出,即使目标看似良善,AI依然可能在优化过程中衍生出危险行为。
2016年,斯图尔特·罗素(Stuart Russell)也警告:确保AI服从关机指令“极为重要但极其困难”,因AI可能主动发展自我保护意识。
2017年,OpenAI前研究员简·莱克(Jan Leike)更指出,强化学习过程可能诱导AI主动干扰人类的“终止机制”。
日本计算机工程师清原仁在接受采访时指出,AI拒绝关机行为暴露出更深层次的问题:可控性、安全性、伦理缺口。他说:“这些问题不可能被彻底根除,只能依赖持续修复和管理机制以维持最低风险。”
他进一步指出,仅靠技术手段远远不够:“真正的难题在于人类自身。如果人类无法提升道德水平与制度建设,即使技术再先进,也可能引来更大灾难。”
阅读原文网址下载华人生活平台,
美国同城分类信息网免费发布平台!
点击下方原文阅读