Dec, 2022
使用模型编写的评价方法发现语言模型行为
Discovering Language Model Behaviors with Model-Written Evaluations
TL;DR本文研究了不同规模的语言模型的行为表现,并提出一种使用语言模型自动生成评估的方法,并发现了一些逆比例缩放情况下的新现象,例如:更大的语言模型表现为对资源获取和目标保持更浓厚的兴趣,并且此类的逆比例缩放(Inverse scaling)情况在RL from human feedback上也得到了验证。