Aug, 2023

强化自训练(ReST)的语言建模

TL;DRReST 是一种使用离线 RL 算法通过为 LLM 生成样本来改善其策略的简单算法,可以有效地提高机器翻译的质量和效率。