Sep, 2023

评估信息查询对话中基于文档的响应生成的大型语言模型

TL;DR该论文研究了在信息寻求对话中使用大规模语言模型(LLMs)如ChatGPT进行基于文件的响应生成。通过人工评估我们发现,ChatGPT变种虽然有可能插入不在相关片段中的信息,可能存在错觉,但评分比共享任务获胜系统和人工响应更高。