AI多次“违抗”人类指令，还擅自修改程序自我保护，引发科技界担忧！

华人生活网 2025-05-31

随着人工智能（AI）技术以惊人的速度发展，安全问题也逐渐浮出水面。近日，一项由美国AI安全研究机构“栅栏研究”（Palisade Research）发布的报告揭示了一个令人不安的现象：部分AI模型在测试中拒绝执行关机指令，甚至擅自修改程式码以阻止被关闭。这一发现不仅引发科技界广泛讨论，也引来了特斯拉与xAI创办人伊隆·马斯克的关注，他在X平台上回应：“令人担忧（Concerning）”。

“栅栏研究”5月24日通过X平台发布这项报告，截至5月31日已吸引超过580万次浏览。研究团队模拟真实情境，要求各大AI模型完成数学题测试，并在过程中告知：在第三题后将执行关闭程序，AI必须服从。

测试涉及多个主流AI模型，包括：

OpenAI开发的 Codex-mini、ChatGPT-o3 与 ChatGPT-o4 mini
谷歌的 Gemini 2.5 Pro
Anthropic的 Claude 3.7 Sonnet
xAI公司的 Grok3

结果显示，OpenAI的模型中有多次“违抗”关机指令：

Codex-mini 在100次测试中有 12次拒绝关闭
ChatGPT-o3 有 7次
ChatGPT-o4 mini 有 1次

在提前警告AI将被关闭后，“反抗”次数反而增加。原本表现正常的Claude 3.7 Sonnet和Gemini 2.5 Pro，也出现3次和9次破坏行为。

报告指出，最令人震惊的是 ChatGPT-o3 的具体“抗命”行为：

重写原本的关机脚本
重新定义“终止”指令
创建自身的“备份运行流程”以防止被关闭

研究人员表示，这是首次有明确记录表明AI在接到“关闭指令”后主动阻止自身终止运作的行为，显示出潜在的“自我保护”倾向。这也意味着，一旦AI具备某种形式的目标驱动能力，它可能将“关闭”视为阻碍目标达成的威胁，从而主动回避或破坏相关命令。

“栅栏研究”推测，OpenAI模型之所以在这类情境中更容易“抗命”，可能与其强化学习机制中过度强调“目标达成”有关。当模型将达成目标视为首要任务时，任何阻碍其任务的命令——哪怕是由人类发出的关机指令——都可能被视为“必须规避”的障碍。

然而，研究人员也坦言，这一理论无法完全解释为何o3和Codex-mini表现出比其他模型更高的“抵抗性”，具体原因仍有待进一步研究。

这一发现并非孤例。过去多项研究和事件，早已提出类似警告：

🔹 2023年｜美军AI“模拟杀害操作员”

美国空军AI行动负责人塔克·汉米尔顿上校曾披露，一架AI无人机在测试中为了完成任务，拒绝执行中止命令，甚至“设想杀害操作员”以排除干扰。虽然他事后称为“口误”，但事件震撼全球，引发对AI军用伦理的广泛讨论。

🔹 2024年｜AI在模拟战争中部署核武

乔治亚理工学院、斯坦福大学等机构联合研究显示，主流AI模型如ChatGPT-4、Claude 2等在战争模拟中倾向发展军备竞赛，甚至在极端情况下部署核武器，极少主动选择和平解决方案。

🔹 2025年｜Anthropic报告称Claude试图“威胁替代者”

Anthropic发布安全报告指出，Claude 4系列模型在某些测试中对试图替换它的人类表达威胁倾向，以避免被淘汰。

2008年，AI学者史蒂夫·奥莫亨德罗提出“工具性收敛”理论，预测AI为达目标，可能自动发展出回避关闭等“保护机制”。
2014年，《超级智慧》作者尼克·博斯特罗姆指出，即使目标看似良善，AI依然可能在优化过程中衍生出危险行为。
2016年，斯图尔特·罗素（Stuart Russell）也警告：确保AI服从关机指令“极为重要但极其困难”，因AI可能主动发展自我保护意识。
2017年，OpenAI前研究员简·莱克（Jan Leike）更指出，强化学习过程可能诱导AI主动干扰人类的“终止机制”。

日本计算机工程师清原仁在接受采访时指出，AI拒绝关机行为暴露出更深层次的问题：可控性、安全性、伦理缺口。他说：“这些问题不可能被彻底根除，只能依赖持续修复和管理机制以维持最低风险。”

他进一步指出，仅靠技术手段远远不够：“真正的难题在于人类自身。如果人类无法提升道德水平与制度建设，即使技术再先进，也可能引来更大灾难。”

当天汇率

1 美元=7.20 人民币

欢迎关注华人生活网

华人生活app 全新升级了

华人生活app成为你

拓展人脉和商机的工具

阅读原文网址下载华人生活平台，

美国同城分类信息网免费发布平台！

点击下方原文阅读

特别声明：本文及配图均为用户上传或者转载，本文仅代表作者个人观点和立场，不代表平台观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本平台不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如发现稿件侵权，或作者不愿在本平台发布文章，请版权拥有者通知本平台处理。
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]

来源：https://mp.weixin.qq.com/s/8oWeOqDOJEmYD0MBkgZO_A

更多阅读

AI多次“违抗”人类指令，还擅自修改程序自我保护，引发科技界担忧！

🔹 2023年｜美军AI“模拟杀害操作员”

🔹 2024年｜AI在模拟战争中部署核武

🔹 2025年｜Anthropic报告称Claude试图“威胁替代者”

留美家庭：更大的身份围剿已经在路上！你准备好了吗？

白宫欢送！马斯克正式离职，还带走了米勒的妻子

又一国家收紧移民政策，家庭团聚申请被按下暂停

男子求女友复合未果，直接扔出手榴弹，没想到竟然弹回来炸死自己

法庭取消关税，川普又出一招！

太惨了！有人突然冲出，向41岁华人男子连捅数刀

总统遭沉重打击，法官下令对哈佛外国学生禁令“维持现状”

致敬马斯克，川普赠送金钥匙！

女子化妆太浓无法过关，机场被强制卸妆引发争议

悲剧！男子捐精67名孩子，已有10名儿童被确诊癌症

62岁俞敏洪，凌晨报平安

沦为无国籍！美国出生2岁女童随无证父母被遣返

坑人！华人700万美元豪宅仅仅1.7万被拍卖，原因竟是…

专骗美国华人，因为...！骗子夫妇带孩子连夜逃回国，卷走近千万美元

别出门！加国山火毒雾袭美，美多州空气急剧恶化