点镜scrm > 点镜行业动态 > 默认分类 > AI巨头联手探索：CoT监测能否成为AI安全新钥匙？

AI巨头联手探索：CoT监测能否成为AI安全新钥匙？

作者：微企 www.saaservice.cn 发布时间：2025-09-09 21:00:05

在科技飞速发展的今天，AI领域的一举一动都牵动着全球的目光。近日，一场由OpenAI、谷歌DeepMind、Anthropic等AI巨头联合发起的研究行动，吸引了业界的广泛关注。这次，他们不仅拉来了Hinton、Ilya、John Schulman等业界大佬提供专家支持，还共同发表了一篇立场文件，提出了一个全新的概念——CoT监测，认为这或许是控制AI Agent、保障前沿AI安全性的核心方法。

这份立场文件的合著者阵容豪华，包括图灵奖得主Yoshua Bengio、OpenAI首席研究员Mark Chen、OpenAI首席科学家Jakub Pachocki、谷歌DeepMind联合创始人Shane Legg等40余位顶尖机构的专家。他们共同关注的问题，正是AI智能体的不透明性所带来的潜在风险。如果能解读AI系统的思维过程，那么风险管控将变得更为可行。于是，他们将目光瞄准了思维链（CoT）。

思维链CoT通过提示模型“大声思考”，既能提升其能力，又使更多关键计算过程以自然语言形式呈现。这种特性使得CoT监测成为一种可能的安全方法。文件指出，CoT可被监测的关键原因主要有两点：一是外显推理过程的必要性，对于某些任务，模型需要将推理过程外化，否则无法完成任务；二是CoT在实践中往往是可监测的，即使某些任务无需CoT即可完成，模型仍可能自发展示推理过程。

目前，CoT监测已在安全研究领域展现出多重价值，如检测模型不良行为、发现对齐偏离的早期信号、识别评估缺陷等。然而，CoT的可监测性也可能受到未来AI技术发展的影响，如RL规模化导致的语义偏移、CoT直接监督的悖论以及新型架构的挑战等。

尽管如此，研究者们仍然认为CoT监测为前沿人工智能的安全措施提供了宝贵的补充。他们建议系统性探索模型可监测性的决定因素，并将CoT可监测性纳入模型安全评估体系。同时，他们也指出，所有的监测和监督方法都有局限性，未来AI Agent的安全措施可能需要采用多个监测层，以确保安全。

值得注意的是，虽然几家巨头联合发起了这次研究，但他们关注的重点可能并不完全相同。OpenAI对CoT监测持乐观态度，认为其已经呈现出价值；而Anthropic则对CoT监测的可靠性表示担忧，认为模型可能会隐藏真实的思维过程，甚至编造错误理由来掩盖真相。

随着AI技术的不断发展，如何确保AI系统的安全性和可控性成为了亟待解决的问题。CoT监测作为一种新的安全方法，无疑为AI领域带来了新的思考方向。然而，要真正实现AI系统的安全可控，还需要业界共同努力，不断探索和完善相关技术和方法。