模型安全

大模型也会被人类套路忽悠吗

大模型也会被人类套路忽悠吗？团队用说服原理测试大模型。AI 同意合成违禁化学品的概率暴增。坏人或能轻易绕过安全防线。这...

RLHF 模型安全说服原理 2026-05-22