语言模型自对弈在非零和博弈中的效果
本文研究了大型语言模型之间在协商游戏中通过玩耍、反思和批判是否能自主地相互提高。我们使用不同的 LLMs (GPT 和 Claude) 来不同的角色,使用交易价格作为评估指标,让两个代理商进行多轮游戏,使用先前的谈判历史和 AI 反馈作为上下文演示,迭代地改进模型的谈判策略。我们希望我们的工作为语言模型间自主改进提供了初步的探索。
May, 2023
提议了一种基于自对弈的语言模型对齐方法,称为 SPPO,通过迭代策略更新近似求解纳什均衡策略,可以有效提高所选择的响应的对数似然并降低所拒绝响应的对数似然,同时在多个实验中表现优于其他基于对称成对损失的方法。
May, 2024
在一个叫做 Adversarial Taboo 的对抗性语言游戏中,我们探索了大型语言模型(LLMs)的自我训练过程。通过强化学习和自我博弈,我们观察到 LLMs 在广泛的推理基准上表现出统一的提升,并且通过迭代采用自我博弈过程可以不断提升 LLM 的推理能力。
Apr, 2024
通过自我奖励语言模型的迭代 DPO 训练,本研究展示了模型的指示遵循能力及为自身提供高质量奖励的能力的提升,最终的 Llama 2 70B 模型在 AlpacaEval 2.0 排行榜上表现优于许多现有系统,包括 Claude 2、Gemini Pro 和 GPT-4 0613。这项初步研究为模型在两个方向上不断改进的可能性打开了大门。
Jan, 2024
本研究探讨了一种新的教授人工智能代理人使用自然语言的方法,发现在通过受监督的学习奖励和自我对弈的信号两种方式的训练后比直接从头开始进行自我学习效果更好,并提出了一种基于人群的方法以进一步提高表现。
Feb, 2020
本文研究了在自我对抗的语言模型对齐环境中,各种正则化形式的效果。通过将参照策略与基本策略几何混合,我们提出了 KL(Kullback-Leibler)正则化方法以解决 SPIN(自我对抗 fine-tuning)学习阶段的性能不稳定问题,并通过采用虚构博弈的思想来平滑对手策略。我们还通过在 MT-Bench 和 Hugging Face Open LLM Leaderboard 上进行实证研究来验证我们的方法。
Apr, 2024