ACLFeb, 2024

预测下一个单词:人类在此任务中表现出的不确定性及语言模型

TL;DR语言模型相对于人类生成的文本是否准确地表达语言变异性,以及 GPT2、BLOOM 和 ChatGPT 在从统计层面上评估这种能力时的失调问题和预期校准误差的失效问题。