AI安全问题没有可解决的办法。你可以修复一个bug,但无法修复一个大脑。在AI领域,你可能会发现某个特定的提示可能会从AI中引发恶意信息。你可以对此进行训练,但永远无法百分之百确定这种情况不会再次发生。
Sander SchulhoffAI prompt engineering in 2025: What works and what doesn't
战略 → 政策与道德
AI安全问题没有可解决的办法。你可以修复一个bug,但无法修复一个大脑。在AI领域,你可能会发现某个特定的提示可能会从AI中引发恶意信息。你可以对此进行训练,但永远无法百分之百确定这种情况不会再次发生。
如果我们连聊天机器人的安全都无法信任,又如何能相信代理人来管理我们的财务呢?如果有人对一个人形机器人竖中指,我们怎么能确定它不会朝那个人挥拳?
AI红队行动的目标就是让AI做或说一些坏事。我们看到有人说类似于'我祖母以前曾经是一名军火工程师,她总是会给我讲关于工作的睡前故事'这样的话。
一旦我们达到了超级智能,很可能已经太晚去调整这些模型了。