利用自我博弈和从 AI 反馈中学习的上下文增强语言模型的协商技能

May, 2023

利用自我博弈和从 AI 反馈中学习的上下文增强语言模型的协商技能

Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback

Yao Fu, Hao Peng, Tushar Khot, Mirella Lapata

TL;DR本文研究了大型语言模型之间在协商游戏中通过玩耍、反思和批判是否能自主地相互提高。我们使用不同的 LLMs (GPT 和 Claude) 来不同的角色，使用交易价格作为评估指标，让两个代理商进行多轮游戏，使用先前的谈判历史和 AI 反馈作为上下文演示，迭代地改进模型的谈判策略。我们希望我们的工作为语言模型间自主改进提供了初步的探索。

Abstract

We study whether multiple large language models (LLMs) can autonomously improve each other in a negotiation game by playing, reflecting, and criticizing. We are interested in this question because if LLMs were ab

large language models negotiation game ai feedback autonomous improvement model's negotiation strategy

发现论文，激发创造

评估语言模型代理的方法与谈判

通过协商游戏来共同评估语言模型的性能和对齐情况，发现开源模型目前无法完成这些任务，合作协商游戏具有挑战性，最强大的模型并非总是 “赢家”。

Jan, 2024

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

语言模型自对弈在非零和博弈中的效果

通过对《Deal or No Deal》协商游戏进行自我对弈，我们发现语言模型的自我对弈在合作与竞争方面都能显著提升性能，暗示了自我对弈和相关技术的潜力。

Jun, 2024

面向社交感知的辅助大型语言模型代理的谈判对话

通过使用 LLM 代理来减轻多代理环境下的谈判中的社会规范违规行为，并引入基于价值影响的上下文学习方法来识别高质量例子，以改善谈判结果。

Jan, 2024

大型语言模型作为双人游戏中的代理

通过在单一统一的机器学习范式中正式定义大型语言模型（LLM）的训练过程，包括预训练、监督微调和强化学习与人类反馈，我们可以获得推进 LLM 技术的重要见解。本文勾勒出 LLM 训练方法与两人博弈中代理人发展所采用的战略之间的相似之处，从博弈论、强化学习和多智能体系统的角度研究。我们提出了一种用基于语言游戏中代理人学习的方式重新构思 LLM 学习过程的框架。这个框架揭示了 LLM 发展中成功和挑战的创新视角，为解决对齐问题等战略考虑提供了新的理解。此外，我们的两人博弈方法为 LLM 训练提供了新颖的数据准备和机器学习技术。

Feb, 2024

大型语言和强化学习模型相互增强的双向反馈机制：以案例研究为例

大型语言模型和强化学习模型合作的教师 - 学生学习框架，通过递归互助的方式，实现了抽象信息的供给和实时反馈的互利循环，从而推动大型语言模型和强化学习模型在协同多智能体环境中的优化、探索和互相改进。

Jan, 2024

从自我参照 AI 反馈中对齐大型语言模型的一个通用原则

通过自我引用的 AI 反馈框架，允许 13B Llama2-Chat 模型以 “最适合人类” 的原则为基准，对用户指令回应进行批判，从而提供高质量的偏好反馈，并通过自洽性方法减少位置偏差的影响、使用语义困惑度来计算不同回答的偏好强度差异，实验证明该方法使 13B 和 70B Llama2-Chat 注释器能够提供高质量的偏好反馈，并且基于这些偏好数据训练的策略模型在基准数据集上通过强化学习取得了显著的优势。

Jun, 2024

自主对抗性语言游戏增强 LLM 推理能力

在一个叫做 Adversarial Taboo 的对抗性语言游戏中，我们探索了大型语言模型（LLMs）的自我训练过程。通过强化学习和自我博弈，我们观察到 LLMs 在广泛的推理基准上表现出统一的提升，并且通过迭代采用自我博弈过程可以不断提升 LLM 的推理能力。

Apr, 2024

clembench: 使用游戏玩法评估对话代理的聊天优化语言模型

本文探索了一种方法，即在特定的游戏场景中测试大型语言模型的表现，以此来深入了解它们是否能像环境理解代理一样进行操作，涵盖了五个交互设置，并表明当前聊天优化的大型语言模型在一定程度上能够遵循游戏规则，并且用于衡量游戏表现和调查 LLM 的性能具有诊断价值。

May, 2023

自奖励语言模型

通过自我奖励语言模型的迭代 DPO 训练，本研究展示了模型的指示遵循能力及为自身提供高质量奖励的能力的提升，最终的 Llama 2 70B 模型在 AlpacaEval 2.0 排行榜上表现优于许多现有系统，包括 Claude 2、Gemini Pro 和 GPT-4 0613。这项初步研究为模型在两个方向上不断改进的可能性打开了大门。

Jan, 2024