ACLApr, 2022

充分利用之前的数据:交互式文本摘要的偏好反馈解决方案

TL;DR本研究提出了一个新的交互式框架,可通过优化离线数据和一种新型奖励模型,以少量交互式反馈的方式训练摘要模型,提高 ROUGE 得分和采样效率。这个框架在摘要的活动、少量交互式学习和在线学习的场景下均具有优势。