Mar, 2023

使用强化学习将英语中等规模 GPT 模型对齐到西班牙语小闭域中

TL;DR本文提出一种将原本用于英语开放域的中型 GPT 模型对齐到西班牙语的小型闭域的方法,并使用神经网络训练和实现了 “奖励模型”,来提高系统答案的解码和生成,结果表明这种方法是可行的。