Anthropic调整AI安全策略更重竞争力与弹性

Daphane · 发表于 2026-3-1 22:58:18

來源:大紀元

图为2025年8月1日，美国科技公司Anthropic发布的插图，显示Claude系列大型语言模型的概念。(Riccardo Milani/Hans Lucas/AFP via Getty Images)

【大纪元2026年02月26日讯】（大纪元记者李思齐综合报导）美国人工智能公司Anthropic于2月24日（周二）发表了3.0版本的负责任扩展策略（Responsible Scaling Policy，RSP），调整了旧版的“硬性安全限制”，转向一个更具弹性、以市场竞争为考量的框架。前一天（23日），Anthropic指出三家中国公司利用Claude来改进自身模型。

2月24日，Anthropic在其公司网站发布了新版的RSP策略，指出不再以自我设定的框架限制其AI模型的开发，而是采用一套不具约束力、且可能会持续调整的安全框架。Anthropic认为，前RSP政策的不足，可能会阻碍公司在AI快速成长市场中的竞争力。

Anthropic成立于2021年，其定位是把AI的安全与可控性视作产品与研究的核心。Anthropic由前OpenAI的成员创立，包括Anthropic的共同创办人兼CEO达里奥‧阿莫代（Dario Amodei）。

试图定义一套“负责任的竞争标准”

Anthropic制定RSP，旨在预测AI能力增强可能带来的风险，并提前规划相应的缓解措施。

Anthropic在2月24日发布的RSP 3.0，标志着人工智能安全治理从“理论框架”转向“实战执行”的重要里程碑。

这次更新的核心在于强化对极端风险（Catastrophic Risks）的防御，并首次引入了更具体的技术指标与第三方审核机制。

Anthropic的旧政策规定，如果模型能力超出公司可控制与确保安全的范围，应暂停训练更强大的模型；3.0的新政策已删除了这一条。Anthropic解释说，若负责任的AI开发者停止发展，而不负责任的竞争者继续推进，这不仅无法降低全球性风险，反而会损害其竞争地位，并可能导致不具备安全意识的公司主导市场。

Anthropic表示，希望其安全策略“能鼓励其它AI公司推出类似政策”。这是一种“竞相提升”的理念，即不同产业参与者被激励去强化，以便在业界建立减少AI风险的共识，而不是削弱AI安全。

面临着的诸多挑战

但Anthropic在这方面显然还面临着诸多挑战，Anthropic于2月23日发布的声明中指出，中国的三家AI公司（DeepSeek、Moonshot和MiniMax）利用其Claude聊天机器人非法训练AI，使用约2.4万个虚假账户对Claude发起“工业级蒸馏攻击”，互动次数高达1600万次，违反服务条款和区域访问限制。（参考阅读：DeepSeek等中企被指非法挖取美AI模型能力）

所谓“蒸馏”技术，即用强模型的输出来训练弱模型。换句话说，中国AI公司在非法挖取美国AI企业的模型能力，以此来节省其研发的时间与成本。

Anthropic在声明中警告说，外国实验室如果能够提取美国的技术模型，就可以将这些未经保护的能力输入到军事、情报和监控系统中，可能使专制政府能够利用前沿AI开展网络攻击、虚假信息宣传和大规模监控。

“Anthropic和其它美国公司构建的系统，旨在防止国家和非国家行为体利用AI开发生物武器或进行恶意网络活动。”

“通过非法蒸馏构建的模型不太可能保留这些安全保障，这意味着危险能力可能会在许多保护措施完全失效的情况下迅速扩散。”

“前沿安全路线图”新框架

在新政策中，Anthropic决定将把自身安全计划与对整个AI产业的建议区分开来。

新的RSP政策采用的新框架被称为“前沿安全路线图”（Frontier Safety Roadmap）。特点是虽然仍设定了安全目标，但这些目标被描述为“非约束力但公开声明”的。

其逻辑是，该公司将“公司内部的安全计划”与“对产业的建议”分开。这意味着，Anthropic会根据竞争对手的行为来动态调整自己的脚步，而非单方面遵守死板的限制。

Anthropic说，路线图中所描述的目标不仅具有挑战性，同时又切实可行，这些目标并非硬性承诺，而是我们将公开评估进展的公开目标。这种“非约束力但公开声明”的目标策略借鉴了一直倡导的前沿AI立法透明化的方法。

单家公司难以控制AI使用的风险

随着AI技术的发展，使用范围也在拓展。Anthropic在2月24日发表的政策变化一文中写道：“我们看到世界各国政府（例如加州的SB 53法案、纽约州的RAISE法案，以及欧盟AI法案的实践准则）开始要求，前沿AI开发者创建并发布用于评估和管理灾难性风险的框架。Anthropic通过包括其前沿合规框架在内的公开文件来满足这些要求。鼓励业界建立此类严格的透明度框架，正是我们发布RSP的初衷。”

RSP 3.0延续并深化了AI安全等级（AI Safety Levels，ASL）系统。这套系统模仿生物实验室的安全等级（BSL），根据模型的潜在危险性定义不同的防护门槛。RSP 3.0还引入“能力阈值”与“保护措施”自动挂钩，及透明度与第三方审核机制。

AI已经在军事行动中使用。Anthropic的主要产品是大型语言模型Claude。《华尔街日报》曾报导，Claude被用于美国军方抓捕委内瑞拉前总统尼古拉斯‧马杜罗（Nicolás Maduro）的行动中。

但多家媒体近日报导，Anthropic和美国战争部对AI的应用存在分歧。据报导，Anthropic在两个问题上不愿让步：AI控制武器，以及对美国公民的大规模监控。Anthropic认为，AI目前尚不足以可靠地操作武器，且目前仍缺乏规范AI如何用于大规模监控的法律与法规。

RSP 3.0特别关注AI的“自主性风险”。这包括模型是否能自行获取资源、修复自身代码或绕过人类监督。政策中新增了针对这些能力的专项测试流程，以确保模型始终处于人类的有效控制之下。

Anthropic于2月24日发布新RSP策略时，提到了对未来的展望。Anthropic表示，将来单凭自身力量可能难以甚至无法实现对国家级别滥用AI的控制，但我们希望，当我们达到更高能力时，世界能够清楚地认识到其中的危险，并且我们能够与世界各国政府协调合作，实施那些单凭一家公司难以实现的保障措施。

这份RSP 3.0不仅是Anthropic的公司政策，也常被视为全球AI监管法律（如欧盟AI法案或美国行政命令）的重要参考范本。

账号		自动登录	找回密码
密码			注册

Anthropic调整AI安全策略 更重竞争力与弹性

浏览过的版块

Anthropic调整AI安全策略更重竞争力与弹性