relevance labels, which indicate whether a search result is valuable to a
searcher, are key to evaluating and optimising search systems. The best way to
capture the true preferences of users is to ask them for th
本文研究了不同规模的语言模型的行为表现,并提出一种使用语言模型自动生成评估的方法,并发现了一些逆比例缩放情况下的新现象,例如:更大的语言模型表现为对资源获取和目标保持更浓厚的兴趣,并且此类的逆比例缩放(Inverse scaling)情况在 RL from human feedback 上也得到了验证。