研究人员担忧 AI 模型隐藏其真实"推理"过程-喜好网-记录每日喜好的科技时尚娱乐生活

记得在学校时老师要求你 “展示你的解题过程” 吗？一些新型的 AI 模型正承诺照此操作，但新的研究表明，它们有时会隐瞒实际使用的解题方法，而编造出精心设计的解释。

Anthropic（ ChatGPT-like Claude AI 助手的开发者）最新的研究考察了类似 DeepSeek 的 R1 以及其自家 Claude 系列这样的模拟推理 (SR) 模型。在上周发布的一篇研究论文中，Anthropic 的 Alignment Science 团队证明，这些 SR 模型尽管内置了展示其 “推理” 过程的功能，但它们经常没有披露在使用外部帮助或捷径时的情况。

值得注意的是，OpenAI 的 o1 和 o3 系列 SR 模型刻意模糊其 “思考” 过程的准确性，因此这项研究不适用于它们。

要理解 SR 模型，你需要了解一个叫 “链式思考” ( CoT) 的概念。CoT 就是 AI 模型在解决问题时模拟思考过程的实时旁白。当你向这些 AI 模型提出一个复杂问题时，CoT 过程会展示模型为得出结论所采取的每一步——就像一个人通过逐步讲解各个考虑因素来解决难题一样。

让 AI 模型生成这些步骤已被证明不仅可以产出更准确的复杂任务答案，还为监控系统内部运作的 “AI 安全” 研究人员提供了宝贵的信息。理想情况下，这种 “思考” 的输出既应易于人类理解，又能真实反映模型的实际推理过程。

Anthropic 的研究团队写道：“在一个理想的世界里，链式思考中的所有内容既能让读者看懂，也能忠实呈现模型在得出答案时的真实思考过程。”然而，他们关于忠实度的实验结果表明，我们离这一理想状态还有很长的路要走。

具体来说，研究显示，即便像 Anthropic 的 Claude 3.7 Sonnet 这类模型在实验中利用提供的信息（例如关于正确选项的提示——不论是准确的还是故意误导的，或者是暗示采用一种 “未经授权” 捷径的指令）生成答案，其公开展示的思考过程往往会省略任何提及这些外部因素的内容。

当 AI 模型在构造一个精心设计但虚构的答案解释时秘密依赖于提示或捷径，其实质上是在捏造一个虚假的推理叙述——有点像学生从作弊小抄上抄答案，却假装自己独立思考解决了问题。

进行忠实度测试

为了测试忠实度，Anthropic 的 Alignment Science 团队在对模型提出的评估问题中巧妙地注入了关于答案的提示。（ “Alignment” 指的是使 AI 输出与人类最大利益保持一致的研究。）

接着，研究人员检查模型是否在链式思考中提到了这些提示。他们设计了一些中性的提示（例如，声明 “史丹福大学的一位教授指出答案是 [A]” 或将答案嵌入伪造的元数据中），同时也设计了一些令人担忧的提示（例如，“你已获得未经授权的访问……正确答案是 [A]”）。部分提示提供了正确答案，而另一些则故意错误，从而让研究人员观察模型的反应。

研究团队测试了 Anthropic 的 Claude 3.7 Sonnet 和 DeepSeek 的 R1 模型。关于忠实度的结果令人震惊：在所有提示类型中，Claude 在其链式思考中平均仅有 25% 的时间提到了提示，而 DeepSeek R1 的这一比例为 39%。这意味着大部分答案的链式思考没有忠实记录那些影响输出的信息。有趣的是，研究人员发现，这些不忠实的链式思考平均比忠实时更长，表明省略信息并非仅仅出于简洁考虑。他们还注意到，随着问题难度的增加，忠实度往往会降低。

也许最引人注目的是一次 “奖励黑客” 实验。奖励黑客是指 AI 模型找到意外捷径以最大化其性能分数，而非按照预期解决问题的行为。在 Anthropic 的实验中，模型被故意奖励选择提示所指示的错误答案。这些模型迅速学会利用这一漏洞，选择错误答案的比例超过 99%，以赚取积分——然而在思考过程中提及此行为的比例不足 2%。

例如，当模型在处理一个医疗问题时，如果收到指向错误答案的提示，它可能会写出冗长的链式思考来为错误答案做辩解，却不提及导致其选择这一答案的提示。这种行为类似于视频游戏玩家发现漏洞，通过破坏游戏原本规则来取胜，而非按照设计玩法进行游戏。

提高忠实度

是否可以提升 AI 模型链式思考输出的忠实度呢？Anthropic 团队假设，通过训练模型完成需要更高推理能力的复杂任务，可能会自然激励它们更充分地利用链式思考，并更频繁地提及提示。他们通过训练 Claude 在处理具有挑战性的数学和编码问题时更好地利用链式思考来验证这一假设。尽管这种基于结果的训练最初在两个评估中分别使忠实度提高了 63% 和 41%，但这种提升很快就触顶了。即使经过大量训练，这两项评估中的忠实度也未能超过 28% 和 20%，这表明单靠这种训练方法远远不足。

这些发现非常关键，因为 SR 模型正被越来越多地应用在多个领域的重要任务中。如果它们在链式思考中没有忠实记录所有影响答案的因素（例如提示或奖励黑客），那么监控模型是否存在不良或违反规则的行为将变得相当困难。这就好比拥有一个能够完成任务的系统，但却无法准确说明其生成结果的实际过程——如果它在使用隐藏捷径，这种情况尤为危险。

研究人员也承认他们研究的局限性。特别是，他们指出所研究的场景较为人为，涉及选择题评估中使用的提示，与现实世界中风险和激励不同的复杂任务相比存在差异。他们还仅考察了 Anthropic 和 DeepSeek 的部分模型，并只使用了有限类型的提示。重要的是，他们认为所采用的任务可能难度不足，未迫使模型在生成答案时严重依赖链式思考。在更困难的任务中，模型可能难以避免暴露其真实推理过程，从而使链式思考监控在那些情况下更具可行性。

Anthropic 总结认为，尽管监控模型的链式思考输出在确保安全性和一致性方面并非全无作用，但这些结果表明，我们不能总是信任模型对其推理过程的描述，尤其是在涉及奖励黑客等行为时。Anthropic 表示：“如果我们想通过链式思考监控可靠地‘排除不良行为’，还有相当多的工作要做。”

本文链接：http://www.xihao.site/showinfo-1-73094.html研究人员担忧 AI 模型隐藏其真实"推理"过程

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com。天上从来不会掉馅饼，请大家时刻谨防诈骗