Feb, 2024

语言模型未学习的任务

TL;DR我们通过一系列任务(H-TEST)对语言的视听属性进行了实证调查,发现当前大规模语言模型(LLMs)存在无法学习的语言属性。我们的实验证明,常识推理、少样本示例或同一模型系列的更强大的语言模型不能显著改善 H-TEST 性能,这与人类的语言理解存在本质差距,并突出显示了在缺乏感知经验的情况下获取知识的局限性。