语言模型自对弈在非零和博弈中的效果

Jun, 2024

语言模型自对弈在非零和博弈中的效果

Efficacy of Language Model Self-Play in Non-Zero-Sum Games

Austen Liao, Nicholas Tomlin, Dan Klein

TL;DR通过对《Deal or No Deal》协商游戏进行自我对弈，我们发现语言模型的自我对弈在合作与竞争方面都能显著提升性能，暗示了自我对弈和相关技术的潜力。

Abstract

game-playing agents like AlphaGo have achieved superhuman performance through self-play, which is theoretically guaranteed to yield optimal policies in competitive games. However, most →

game-playing agents self-play language tasks cooperative games negotiation game setting

发现论文，激发创造

利用自我博弈和从 AI 反馈中学习的上下文增强语言模型的协商技能

本文研究了大型语言模型之间在协商游戏中通过玩耍、反思和批判是否能自主地相互提高。我们使用不同的 LLMs (GPT 和 Claude) 来不同的角色，使用交易价格作为评估指标，让两个代理商进行多轮游戏，使用先前的谈判历史和 AI 反馈作为上下文演示，迭代地改进模型的谈判策略。我们希望我们的工作为语言模型间自主改进提供了初步的探索。

May, 2023

通过自我博弈学习多智能体协商

这篇论文通过深度强化学习中的自我对战迭代程序展示了如何创建越来越多样化的交通场景并学习多智能体协作策略提高合并操作成功率。

Jan, 2020

大型语言模型能否玩游戏？一种自我对弈方法的案例研究

结合蒙特卡洛树搜索和大型语言模型的创新方法可有效解决决策型游戏问题，提高大型语言模型的性能并处理蒙特卡洛树搜索无法应对的挑战。

Mar, 2024

语言模型对齐的自我游戏偏好优化

提议了一种基于自对弈的语言模型对齐方法，称为 SPPO，通过迭代策略更新近似求解纳什均衡策略，可以有效提高所选择的响应的对数似然并降低所拒绝响应的对数似然，同时在多个实验中表现优于其他基于对称成对损失的方法。

May, 2024

自主对抗性语言游戏增强 LLM 推理能力

在一个叫做 Adversarial Taboo 的对抗性语言游戏中，我们探索了大型语言模型（LLMs）的自我训练过程。通过强化学习和自我博弈，我们观察到 LLMs 在广泛的推理基准上表现出统一的提升，并且通过迭代采用自我博弈过程可以不断提升 LLM 的推理能力。

Apr, 2024

语言模型是少样本学习的管家

使用预训练语言模型和简单的强化学习算法，无需大量专家示范即可在文本环境中操作并取得 51% 的成功率改进。

Apr, 2021

自奖励语言模型

通过自我奖励语言模型的迭代 DPO 训练，本研究展示了模型的指示遵循能力及为自身提供高质量奖励的能力的提升，最终的 Llama 2 70B 模型在 AlpacaEval 2.0 排行榜上表现优于许多现有系统，包括 Claude 2、Gemini Pro 和 GPT-4 0613。这项初步研究为模型在两个方向上不断改进的可能性打开了大门。

Jan, 2024

监督与自我对弈在新兴通讯中的相互作用

本研究探讨了一种新的教授人工智能代理人使用自然语言的方法，发现在通过受监督的学习奖励和自我对弈的信号两种方式的训练后比直接从头开始进行自我学习效果更好，并提出了一种基于人群的方法以进一步提高表现。

Feb, 2020

评估语言模型代理的方法与谈判

通过协商游戏来共同评估语言模型的性能和对齐情况，发现开源模型目前无法完成这些任务，合作协商游戏具有挑战性，最强大的模型并非总是 “赢家”。

Jan, 2024

自我博弈语言模型的正则化研究

本文研究了在自我对抗的语言模型对齐环境中，各种正则化形式的效果。通过将参照策略与基本策略几何混合，我们提出了 KL（Kullback-Leibler）正则化方法以解决 SPIN（自我对抗 fine-tuning）学习阶段的性能不稳定问题，并通过采用虚构博弈的思想来平滑对手策略。我们还通过在 MT-Bench 和 Hugging Face Open LLM Leaderboard 上进行实证研究来验证我们的方法。

Apr, 2024