Sep, 2020

从人类反馈中学习摘要

TL;DR通过使用强化学习优化模型的奖励函数来预测人类偏好总结,本文展示了可显著提高总结质量的可能性,并在 TL;DR 数据集上取得了显著的优势。