TL;DR本文探讨了基于预训练语言模型的 AI 系统在协作问题上的行为,并通过众包和模型生成场景进行评估和测试,最后提供了一组生成场景的数据集和模型评估结果。
Abstract
It is likely that ai systems driven by pre-trained language models (PLMs)
will increasingly be used to assist humans in high-stakes interactions with
other agents, such as negotiation or conflict resolution. Cons
本文研究了不同规模的语言模型的行为表现,并提出一种使用语言模型自动生成评估的方法,并发现了一些逆比例缩放情况下的新现象,例如:更大的语言模型表现为对资源获取和目标保持更浓厚的兴趣,并且此类的逆比例缩放(Inverse scaling)情况在 RL from human feedback 上也得到了验证。