Aug, 2021

大语言模型的程序综合

TL;DR本文探索了大型语言模型在通用编程语言的程序合成方面的局限性,并在新的基准测试中评估了这些模型的性能。作者在两个基准测试(MBPP和MathQA-Python)上测试了这些模型,结果表明这些模型的性能随着其大小的增加而呈现对数线性关系。他们研究了这些模型进行对话以及语意建模的能力,并发现即使是最好的模型也无法完全预测某些程序的输出。