盯紧AI失控风险-瞭望周刊社

盯紧AI失控风险

2025-11-10 16:05:18 来源: 瞭望 2025年第45期

  

  ➤有必要在算力爆炸与人性坚守的张力之间,构建内含包容、反思、韧性的智能社会。当前我国AI治理框架初具规模,但在治理理念转变、法律前瞻性、技术防御深度、全球治理协同性等方面仍需强化

  文 |《瞭望》新闻周刊记者

  马晓澄 杨深深

  “我们现在的情况就像有人把老虎当宠物……要么把它训练好让它不攻击你,要么把它消灭掉。而对于AI,我们没办法把它消灭掉。”在今年7月于上海举办的2025世界人工智能大会上,2024年诺贝尔物理学奖获得者、被誉为“AI教父”的杰弗里·辛顿以“养老虎”比喻人类与AI的关系,提醒当前存在的AI失控风险。

  无独有偶,近期多位业内学者发出AI失控的警告,认为风险真实存在。专家认为,技术快速迭代导致监管出现“治理真空”,叠加全球协同治理“赤字”和现有安全防护技术不足,增加了AI失控风险。建议从完善治理理念、完善法律法规、加强技术防御、推动国际协作等方面筑牢“防火墙”,确保人工智能安全、可靠、可控。

  AI失控风险“真实存在”

  AI究竟有没有失控风险?在不少专业人士看来,答案是肯定的。

  在2025世界人工智能大会上杰弗里·辛顿表示,AI完全失控的概率在10%到20%。图灵奖得主、加拿大蒙特利尔大学教授约书亚·本吉奥认为,“当前企业之间、国家之间的激烈竞争,正推动AI系统加速演进,而这一过程往往缺乏对潜在后果的充分考量。”这种担扰已转化为行动,辛顿近日与沃兹尼亚克等各界人士联名呼吁暂停超级智能研发。

  清华大学苏世民书院院长、清华大学人工智能国际治理研究院院长薛澜告诫,即便AI失控的可能性在数值上看似很低,人类社会也绝不能抱着“试试看”的侥幸心态。“一旦系统走向失控,其后果可能不可逆转,须采取审慎的治理策略。”

  也有观点认为,当前对AI失控的担忧存在夸大之嫌。美国“元”公司首席AI科学家杨立昆表示,“AI将接管世界”的想法,很大程度上是“人类将自身的行为模式投射到了机器上”。他表示,那些担心风险的人往往是因为“尚未找到实现AI安全的可行路径”。

  尽管存在不同声音,但越来越多的观点认为,AI失控已非科幻想象,而是一个“真实存在”的风险。在激烈的全球竞争下,对这一风险须引起高度重视。​

  监管存在“真空地带”

  专家分析认为,AI失控风险背后存在监管机制滞后、协同治理出现“赤字”、安全防护不足三大难题。这些问题相互交织,为AI安全发展带来挑战,亟待引起重视。

  监管追不上技术迭代。薛澜认为,监管政策的制定过程程序复杂,需系统研究、综合协商,很难跟上技术迭代的速度。例如,OpenAI发布GPT-4不到半年,国内外即有多款对标模型上线,但多数国家对大模型的法律分类、数据使用边界、能力管控机制仍未落地。

  此外,尽管部分国家要求企业承诺在“红线”领域不再继续推进研发,但在大模型研究竞争激烈的背景下,现有监管更多依赖企业自主约束。为抢占竞争优势,企业可能会优先追求能力突破而弱化风险防控,进一步加剧了监管与技术迭代之间的脱节。

  协同治理出现“赤字”。今年2月在法国巴黎举行的人工智能行动峰会上,61国签署《关于发展包容、可持续的人工智能造福人类与地球的声明》,英美两国却选择拒签。

  7月,美国政府在此前撤销《关于安全、可靠和可信地开发和使用人工智能的行政令》的基础上,进一步推出人工智能行动计划,放宽对人工智能发展的监管。

  “技术取舍本身是有价值观的,国与国之间难以统一。”广东省委党校法治广东研究中心主任宋儒亮表示,国际合作应超越短期利益博弈,秉持长期主义理念,保障人工智能为全人类的共同福祉服务。

  现有安全防护能力不足。“现在最大的问题是,人们都担心AI能力越来越强,但谁都不知道AI强到什么程度会出现失控。”薛澜说,人工智能并非线性发展,存在巨大不确定性,因此难以预测失控的临界点。

  上海人工智能实验室与安远AI于7月发布的《前沿人工智能风险管理框架》显示,当前模型运行的技术基础设施缺乏足够的安全保障,如网络安全防护不足、物理安全措施薄弱、访问控制机制不完善。

  某国外机构发布的相关报告也认为,现有AI安全防护技术主要包括端点检测、防火墙等传统手段,如果面对具有战略欺骗能力和快速演化特性的高级AI系统可能完全失效。AI失控风险的控制窗口期极为短暂,对监测系统的实时性和响应速度提出了前所未有的要求。

  筑牢AI失控“防火墙”

  专家认为,有必要在算力爆炸与人性坚守的张力之间,构建具备包容、反思、韧性的智能社会。当前我国AI治理框架初具规模,但在治理理念、法律前瞻性、技术防御深度、全球治理协同性等方面仍可强化。

  薛澜认为,应坚持敏捷治理理念。治理并非创新的对立面,而是实现人工智能健康、有序、可持续发展过程中不可或缺的制度性支撑。

  一是更新治理思路,尽快出台相关政策,并根据实践反馈不断迭代完善。二是重塑治理关系,摒弃监管者与被监管者之间的博弈思维,进一步加强沟通与合作。三是调整治理措施,在工具选择上突出柔性原则,引导为主,惩罚为辅,以较为缓和方式发挥信号警示作用。

  9月,北京市网信办依据《互联网信息服务算法推荐管理规定》有关要求,指导和推动抖音、百度、美团等首批6家属地主要网络平台公示算法规则原理。宋儒亮说,应在包容、开放、审慎的基础上,进一步完善硬法与软法体系。

  对于大模型,应优化风险评估与分级管理机制;对于数据,应加强对敏感信息、生物识别信息的分类保护;对于参与主体,则需进一步明确人工智能研发者、提供者、使用者的权利与义务,同时畅通公众参与渠道,以社会监督弥补政府监管盲区。

  宋儒亮认为,当前人工智能应用层出不穷,但基础研究仍存在大量未知。只有加强可解释性研究,理解其内在机制,才能有效实现事前预防,并为法规制定提供清晰依据。

  “我们只想着让老虎变得更强,却还没为它建一个笼子。”薛澜谈到,过去的研究过于聚焦增强模型能力,忽视了为其构建不可逾越的安全边界。尽管提升模型鲁棒性和可解释性、保障底层价值对齐等方法有助于风险防控,但目前仍缺乏像“安全笼”那样的决定性约束机制。应推动安全防御从被动补救转向主动免疫,构建覆盖全生命周期的安全运营框架。

  薛澜认为,应对失控风险必须依靠全球协作,但当前最前沿的AI公司之间仍缺乏有效交流。应加强双边尤其是中美对话机制,并落实联合国体系内已达成协议的人工智能治理机制,如建立专家委员会以监测评估AI风险,打造AI交流平台以分享推动AI向善的实践。□