迁移 Q-Star：面向 LLM 对齐的原理解码

May, 2024

迁移 Q-Star：面向 LLM 对齐的原理解码

Transfer Q Star: Principled Decoding for LLM Alignment

Souradip Chakraborty, Soumya Suvra Ghosal, Ming Yin, Dinesh Manocha, Mengdi Wang...

TL;DR利用转移学习方法的 Transfer Q * 技术在最优 Q - 函数的缺失情况下，通过对齐基线奖励与基线模型来间接估计目标奖励的最优值函数，有效减小了先前方法中存在的次优解的差距，并在多个合成和真实数据集上证明了其卓越的实证性能。

Abstract

Aligning foundation models is essential for their safe and trustworthy deployment. However, traditional fine-tuning methods are computationally intensive and require updating billions of model parameters. A promising alternative, alignment via →

alignment decoding optimal q-function transfer q*sub-optimality gap

发现论文，激发创造

了解您的参考模型以实现良好对齐

通过引入 Trust Region DPO 方法，我们提出了一种新的对齐方法来改善模型的质量，通过在训练过程中更新参考策略，我们展示了 TR-DPO 相对于 DPO 在多个参数上的优越性能。

Apr, 2024

MBR 和 QE 微调：训练时间中最佳和最昂贵解码方法的蒸馏

通过在推论阶段使用高效解码算法并在训练阶段提炼质量收益，提出了 MBR（最小贝叶斯风险）微调和 QE（质量评估）微调方法，通过使用自我训练模型和外部 LLM（语言模型）作为教师模型，这些微调方法在自然语言生成（NLG）任务中达到了比人生成参考文献更好的结果，且能保持推论过程的高效性。

Sep, 2023

基于原则的词汇约束解码的准确在线后验对齐

本文介绍了一种在线翻译对齐技术，该技术可以帮助用户将自定义的字典注入到翻译模型中，并可以与之前的约束性搜索技术集成，从而有效解决了机器翻译中的对齐问题。经实验证明，在 5 种不同的语言对和 7 项翻译任务中，对齐错误率显著降低，BLEU 得分有相应提高。

Apr, 2022

从 $r$ 到 $Q^*$：您的语言模型暗地里是一个 Q 函数

使用引导反馈的强化学习是生成式人工智能模型成功的关键，本研究讨论了直接偏好优化 (DPO) 作为替代方法的应用，通过理论和实证结果证明了在令牌级马尔科夫决策过程 (MDP) 中，DPO 能够在信用分配和搜索算法等方面产生有意义的改进。

Apr, 2024

基于数据驱动的批量 $Q^*$ 学习中的知识传递

在数据驱动的决策制定中，通过利用现有企业的大量数据来导航高维特征空间，解决新企业中数据稀缺问题，在动态决策制定中探讨知识转移，并通过马尔可夫决策过程的角度形式定义任务差异，提出了具有通用函数逼近的转移拟合 Q - 迭代算法框架，可直接估计目标和源数据下的最优动作状态函数 Q*，在筛选逼近下，阐明了统计性能与 MDP 任务差异之间的关系，揭示了知识转移的有效性受源样本数量、目标样本数量和任务差异的影响，并从理论和实证上显示，Q * 函数的最终学习误差显著提高于单一任务速率。

Apr, 2024

进化启发式奖励引导的解码时对齐

利用进化方法，通过解码来自突变指令的探索并用周期性替换低回报一代与高回报一代来实现在 LLMs 中用户偏好的对齐。

Jun, 2024

SQT - std Q-target

Std Q-target 是一种保守的，基于单一关键的 Q 公式：Q 网络标准差，在强化学习中解决过高估计的偏见问题，我们将 SQT 应用于 TD3/TD7 代码并在七种常见的 MuJoCo 和 Bullet 任务上与最先进的 actor-critic 算法 DDPG，TD3 和 TD7 进行测试，结果表明 SQT 在所有任务上相比于 DDPG，TD3 和 TD7 具有明显的性能优势。

Feb, 2024

超越模仿：利用细粒度质量信号进行对齐

我们提出了一种名为 FIGA 的改进对齐方法，通过利用细粒度的质量信号，即对比好坏回答的方式，指导大型语言模型的对齐学习。实验证明了我们的方法的有效性。

Nov, 2023

在线合并优化器用于提升回报和降低税额的对齐

通过在线合并优化器，在人类反馈强化学习中持续调节训练方向，实现大语言模型的高性能表现和对齐奖励的显著提升，同时减小对齐成本。

May, 2024

解码器调优：以解码为基础的有效语言理解

本研究提出 Decoder Tuning 方法，通过优化解码器网络来适应具有冻结参数的预训练模型，并只需要一个 API 查询，可以实现一千倍的加速。

Dec, 2022