Aug, 2023
基于提示的长度控制生成与强化学习
Prompt-Based Length Controlled Generation with Reinforcement Learning
Renlong Jie, Xiaojun Meng, Lifeng Shang, Xin Jiang, Qun Liu
TL;DR我们提出了一种基于提示的长度控制方法,通过采用可训练或基于规则的奖励模型来影响大型语言模型的生成,从而实现长度可控的生成,该方法在广泛适用于类似 GPT 的大型语言模型的同时,显著提高了摘要任务中基于提示的长度控制的准确性。