May, 2024

大型语言模型是否能理解常见词汇的不常见含义?

TL;DR通过创新构建一个包含细粒度和跨语言维度的词汇语义理解数据集,本研究揭示了大语言模型在基本词汇意义理解任务上的性能不佳,甚至落后于 16 岁的人类 3.9% 和 22.3% 分别。这突显了其关键不足,并激发了进一步研究和开发更智能的大语言模型的新见解。