Jun, 2022

超越模仿游戏:量化和推断语言模型的能力

TL;DR通过引入 Beyond the Imitation Game 基准测试(BIG-bench),我们评估了多种大小的语言模型在 204 个跨不同领域的任务上的表现,发现规模越大,其表现和校准也越好,但与人类专家相比还是很差,同时也发现在歧义上下文中情境偏见随规模增加而增加,但通过提示可以改善。