Jul, 2023

过度思考真相:理解语言模型处理错误演示的方法

TL;DR研究发现现代语言模型通过少样本学习可以模仿复杂模式,但这种模仿可能导致不准确或有害内容的复制。通过分析模型的内部表示,发现了两个相关现象:过度思考和错误归纳头。过度思考现象在解码中间层的预测时出现,给出正确和错误的少样本演示。在早期层次,两个演示引起了类似的模型行为,但在某个 “临界层” 之后,给出错误演示时的准确性逐渐降低。错误归纳头可能是过度思考的机械原因:它们是位于较晚层次的头部,关注并复制先前演示中的错误信息,去除这些头部可以减少过度思考。除了科学理解,研究结果表明,研究模型计算中间过程可能是理解和预防有害模型行为的一个有前景的途径。