Jul, 2023

评估问题回答的指令遵循模型的准确性和忠实性

TL;DR研究中使用检索辅助的指令跟随模型在信息搜索问答任务中的性能表现,并分析了传统指标的不足之处,提出了反映这些模型真实性能的简单基于词汇重叠和模型的度量标准。研究发现,指令跟随模型在正确性方面具有一定竞争力,甚至有时优于微调模型,但在基于提供的知识的还原度上存在困难,经常出现虚构回答。