Nov, 2023

神经机器翻译模型的对齐:训练和推理中的人工反馈

TL;DR通过将来自人类反馈的强化学习应用于语言模型,本研究综合探索和比较不同技术,通过引入奖励模型提高机器翻译的质量,并发现有效的数据过滤和结合奖励模型与排名技术能显著提高翻译质量。