Jun, 2024

基于强化学习的文本摘要的多维优化

TL;DR本文提出了一种多目标强化学习方法,通过多维优化策略和基于问答的奖励模型生成在多个维度上平衡的、简洁但信息丰富的摘要,取得比基准模型更好的性能表现。