迁移 Q-Star:面向 LLM 对齐的原理解码
通过引入 Trust Region DPO 方法,我们提出了一种新的对齐方法来改善模型的质量,通过在训练过程中更新参考策略,我们展示了 TR-DPO 相对于 DPO 在多个参数上的优越性能。
Apr, 2024
通过在推论阶段使用高效解码算法并在训练阶段提炼质量收益,提出了 MBR(最小贝叶斯风险)微调和 QE(质量评估)微调方法,通过使用自我训练模型和外部 LLM(语言模型)作为教师模型,这些微调方法在自然语言生成(NLG)任务中达到了比人生成参考文献更好的结果,且能保持推论过程的高效性。
Sep, 2023
本文介绍了一种在线翻译对齐技术,该技术可以帮助用户将自定义的字典注入到翻译模型中,并可以与之前的约束性搜索技术集成,从而有效解决了机器翻译中的对齐问题。经实验证明,在 5 种不同的语言对和 7 项翻译任务中,对齐错误率显著降低,BLEU 得分有相应提高。
Apr, 2022
使用引导反馈的强化学习是生成式人工智能模型成功的关键,本研究讨论了直接偏好优化 (DPO) 作为替代方法的应用,通过理论和实证结果证明了在令牌级马尔科夫决策过程 (MDP) 中,DPO 能够在信用分配和搜索算法等方面产生有意义的改进。
Apr, 2024
在数据驱动的决策制定中,通过利用现有企业的大量数据来导航高维特征空间,解决新企业中数据稀缺问题,在动态决策制定中探讨知识转移,并通过马尔可夫决策过程的角度形式定义任务差异,提出了具有通用函数逼近的转移拟合 Q - 迭代算法框架,可直接估计目标和源数据下的最优动作状态函数 Q*,在筛选逼近下,阐明了统计性能与 MDP 任务差异之间的关系,揭示了知识转移的有效性受源样本数量、目标样本数量和任务差异的影响,并从理论和实证上显示,Q * 函数的最终学习误差显著提高于单一任务速率。
Apr, 2024
Std Q-target 是一种保守的,基于单一关键的 Q 公式:Q 网络标准差,在强化学习中解决过高估计的偏见问题,我们将 SQT 应用于 TD3/TD7 代码并在七种常见的 MuJoCo 和 Bullet 任务上与最先进的 actor-critic 算法 DDPG,TD3 和 TD7 进行测试,结果表明 SQT 在所有任务上相比于 DDPG,TD3 和 TD7 具有明显的性能优势。
Feb, 2024
我们提出了一种名为 FIGA 的改进对齐方法,通过利用细粒度的质量信号,即对比好坏回答的方式,指导大型语言模型的对齐学习。实验证明了我们的方法的有效性。
Nov, 2023
本研究提出 Decoder Tuning 方法,通过优化解码器网络来适应具有冻结参数的预训练模型,并只需要一个 API 查询,可以实现一千倍的加速。
Dec, 2022