语言模型合作性可扩展评估

Mar, 2023

Towards the Scalable Evaluation of Cooperativeness in Language Models

Alan Chan, Maxime Riché, Jesse Clifton

TL;DR本文探讨了基于预训练语言模型的 AI 系统在协作问题上的行为，并通过众包和模型生成场景进行评估和测试，最后提供了一组生成场景的数据集和模型评估结果。

Abstract

It is likely that ai systems driven by pre-trained language models (PLMs) will increasingly be used to assist humans in high-stakes interactions with other agents, such as negotiation or conflict resolution. Cons

ai systems pre-trained language models cooperation problems game-theoretic structure scenario generation

发现论文，激发创造

利用实验经济学研究大型语言模型中出现的类目标行为

通过实验，本研究发现大型语言模型能够在一定程度上将自然语言描述的利他主义和自私行为转化为适当的行为，但在适应有条件回报的情况下存在局限性，特别是在社会困境的一般人类行为模式方面存在潜在限制。研究呼吁进一步探讨大型语言模型生成的代理在更广泛的社会困境中自动生成行为的因素，探讨模型架构、训练参数和各种合作伙伴策略对代理行为的影响，最终促进更符合人类价值和社会规范的人工智能系统的发展。

May, 2023

LLM 增强型自治代理能够合作吗？— 通过熔炉验证其合作能力

大语言模型在自主代理中的合作能力及其与 Melting Pot 环境中的应用和评估

Mar, 2024

评估和改进 AI 中的价值判断：一项基于场景的大型语言模型对社会约定的描述研究

AI 产出如何产生更好的结果，社会如何将其描绘，以及在冲突价值情境中作出决策模型的研究与应用。

Oct, 2023

评估大型语言模型中的多智能体协调能力

该研究介绍了使用大型语言模型在多智能体协调方面的有效性评估，构建了 LLM-Co 框架来使 LLMs 能够进行协调游戏，并展示了 LLMs 在不同方面的评估结果，从而强调了 LLMs 在复杂协调环境中的潜力。

Oct, 2023

评估语言模型代理的方法与谈判

通过协商游戏来共同评估语言模型的性能和对齐情况，发现开源模型目前无法完成这些任务，合作协商游戏具有挑战性，最强大的模型并非总是 “赢家”。

Jan, 2024

ProAgent: 利用大型语言模型构建主动合作的人工智能

建立具有适应性行为的人工智能在人工智能与人类合作中具有重要的研究焦点。本研究提出了一种名为 ProAgent 的新框架，利用大型语言模型来预测合作伙伴的决策并改进自身计划。实验证明，ProAgent 在与人工智能代理和人类合作中表现出显著优越性能，为人类与机器人协作的未来研究提供了启示。

Aug, 2023

使用模型编写的评价方法发现语言模型行为

本文研究了不同规模的语言模型的行为表现，并提出一种使用语言模型自动生成评估的方法，并发现了一些逆比例缩放情况下的新现象，例如：更大的语言模型表现为对资源获取和目标保持更浓厚的兴趣，并且此类的逆比例缩放（Inverse scaling）情况在 RL from human feedback 上也得到了验证。

Dec, 2022

基于协作生成代理的 LLM 任务导向协调中人类行为互动模拟

应用大型语言模型（LLMs）在各种任务和社会模拟中取得了显著进展，但它们在任务导向的社会背景中的协调能力尚未得到充分探索。为了弥合这一差距，我们引入了协作生成代理，为基于 LLMs 的代理赋予一致的行为模式和解决任务的能力。我们将这些代理置于一个模拟的招聘会环境中进行案例研究，以审查它们的协调能力。我们提出了一个新颖的框架，赋予协作生成代理人类般的推理能力和专业技能。我们的评估结果表明，这些代理显示出有希望的性能。然而，我们也发现了限制，阻碍了它们在更复杂的协调任务中的效果。我们的工作对于 LLMs 在任务导向的社会模拟中的作用和发展提供了有价值的见解。

Oct, 2023

使用大型语言模型进行反复游戏

使用行为博弈理论研究大型语言模型行为，结果显示它们在自我利益方面的表现非常出色，但在协调方面表现不佳，尤其表现出一些行为特征。

May, 2023

多智能体协作攻击：通过辩论研究大规模语言模型协作中的对抗攻击

评估模型网络在对抗影响下通过辩论进行合作时的行为，探索推理时间方法生成更令人信服的论点，并评估基于提示的缓解作为一种防御策略的潜力。

Jun, 2024