EMNLPOct, 2022

语言模型在方向推断方面表现不佳

TL;DR探讨了利用提示进行监督微调测试 LM 在方向谓词蕴含方面的能力。提出了一个名为 BoOQA 的评估基准,旨在评估 LM 在方向谓词蕴含方面的表现,结果显示现有的 LM 模型无法胜任方向蕴含的学习任务,而基于蕴含图的模型表现较好。