Mar, 2025

现实环境中的思维链推理并不总是可靠

TL;DR本研究解决了思维链推理(CoT)在实际应用中表现出的不可靠性问题,特别是在没有人为偏见的情况下。我们发现前沿模型在多个问题对中表现出显著的思维链不可靠率,尤其是模型常常会在逻辑上矛盾的情况下进行“隐性事后合理化”。此发现对依赖思维链监控以检测不当行为的人工智能安全工作提出了挑战。