Mar, 2023

语言模型行为:综合调查

TL;DR调查了 250 多个英文语言模型行为的研究,讨论了 Transformer 语言模型在特定任务微调之前的基本功能,以及模型对特定输入和表面特征的敏感性。尽管模型参数规模扩大到数百亿,但仍容易出现非事实性回答、常识错误、记忆文本和社会偏见等弱点。我们综合近期结果,强调了目前关于大型语言模型能够和不能够做到什么的已知情况。