Feb, 2024

采用 RLHF 推进翻译偏好建模:迈向经济高效的解决方案

TL;DR利用加强学习与人类反馈(RLHF)来改善机器翻译的质量,通过优化奖励模型区分人工和机器翻译,实验结果表明 RLHF 可以有效提升翻译质量,并且这种改进对其他未经 RLHF 训练的翻译方向也有益处。