Jan, 2022

通过填空测试评估机器常识

TL;DR通过对语言模型的表现的一系列测试和测量,本文揭示语言模型的强项与局限,提出了利用填空测试结合词嵌入来度量 LM 的鲁棒性和置信度,结果显示语言模型虽然能够实现类人的准确性,但其置信度不足。将来的工作可以利用这一信息来构建更复杂的系统,如符号和分布式知识的集合。