Dec, 2022

使用模型编写的评价方法发现语言模型行为

TL;DR本文研究了不同规模的语言模型的行为表现,并提出一种使用语言模型自动生成评估的方法,并发现了一些逆比例缩放情况下的新现象,例如:更大的语言模型表现为对资源获取和目标保持更浓厚的兴趣,并且此类的逆比例缩放(Inverse scaling)情况在 RL from human feedback 上也得到了验证。