Aug, 2023

基于提示的长度控制生成与强化学习

TL;DR我们提出了一种基于提示的长度控制方法,通过采用可训练或基于规则的奖励模型来影响大型语言模型的生成,从而实现长度可控的生成,该方法在广泛适用于类似 GPT 的大型语言模型的同时,显著提高了摘要任务中基于提示的长度控制的准确性。