ACLApr, 2022
充分利用之前的数据:交互式文本摘要的偏好反馈解决方案
Make The Most of Prior Data: A Solution for Interactive Text Summarization with Preference Feedback
Duy-Hung Nguyen, Nguyen Viet Dung Nghiem, Bao-Sinh Nguyen, Dung Tien Le, Shahab Sabahi...
TL;DR本研究提出了一个新的交互式框架,可通过优化离线数据和一种新型奖励模型,以少量交互式反馈的方式训练摘要模型,提高 ROUGE 得分和采样效率。这个框架在摘要的活动、少量交互式学习和在线学习的场景下均具有优势。