Sep, 2023
评估信息查询对话中基于文档的响应生成的大型语言模型
Evaluating Large Language Models for Document-grounded Response Generation in Information-Seeking Dialogues
Norbert Braunschweiler, Rama Doddipatla, Simon Keizer, Svetlana Stoyanchev
TL;DR该论文研究了在信息寻求对话中使用大规模语言模型(LLMs)如 ChatGPT 进行基于文件的响应生成。通过人工评估我们发现,ChatGPT 变种虽然有可能插入不在相关片段中的信息,可能存在错觉,但评分比共享任务获胜系统和人工响应更高。