Mar, 2022

教授语言模型通过验证的引文支持答案

TL;DR通过强化学习从人类偏好中得出支持性证据,训练生成回答并支持其声称的“开放式书目”QA模型。该模型能够从搜索引擎中找到的多个文档或单个用户提供的文档中提取支持证据。通过在NaturalQuestions和ELI5数据集的子集中进行的人类评估,该模型的响应在这两个子集中80%和67%的时间内达到高质量水平,但并非所有声称都被支持的证据是正确的。