网络学习和游戏中 LLM 代理的后悔案例研究

Mar, 2024

网络学习和游戏中 LLM 代理的后悔案例研究

Do LLM Agents Have Regret? A Case Study in Online Learning and Games

Chanwoo Park, Xiangyu Liu, Asuman Ozdaglar, Kaiqing Zhang

TL;DR通过对大型语言模型代理在决策中的性能进行度量，我们提出通过性能指标 “遗憾” 在在线学习和博弈论的基准决策情景中研究它们的交互，以更好地了解这些交互环境中 LLM 代理的局限性。

Abstract

large language models (LLMs) have been increasingly employed for (interactive) decision-making, via the development of LLM-based autonomous agents. Despite their emerging successes, the performance of

large language models decision-making llm agents regret no-regret behaviors

发现论文，激发创造

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

关于 LLMs 决策能力的探究：在多智能体环境中评估 LLMs 的游戏能力

通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力，研究发现 GPT-3.5 在鲁棒性方面表现出色，但其概括能力相对有限，通过 Chain-of-Thought 等方法可以提高其性能；此外，评估发现 GPT-4 在 GAMA-Bench 上表现最好，得分为 72.5，而 GPT-3.5 的不断更新也标志着模型智能的显着提高。

Mar, 2024

使用函数遗憾估计来解决游戏

本文提出了一种新的在线学习方法，用于在大型 extensive-form 游戏中最小化后悔。该方法通过在线学习函数逼近器来估计选择特定行动的后悔值，并使用无悔算法根据这些估计值来定义一系列策略。我们证明了该方法的正确性，并证明了只要逼近函数能够实现后悔值，方法就能自我学习并收敛到纳什均衡。我们的技术可以被理解为现有大型游戏中抽象工作的原则性推广；在我们的工作中，抽象和均衡都是在自我博弈中学习的。我们在实验中展示了该方法可以在相同资源条件下实现比最先进的抽象技术更高质量的策略。

Nov, 2014

在线学习：超越遗憾

本研究探讨了一类广泛问题的在线可学性，并将其扩展到远超过外部遗憾的性能评估简单规范。我们的框架同时捕捉了其他著名规范，例如内部和一般 Phi 规范、学习使用非加性全局成本函数、Blackwell 的可挑战性、预测者的校准、自适应遗憾等。我们展示了在所有这些情况下的可学习性归因于控制相同的三个量：马田哥小定理收敛项、如果已知未来则能够表现良好的能力描述项、以及顺序 Rademacher 复杂性的概括，该复杂性在 (Rakhlin, Sridharan, Tewari, 2010) 中得到研究。由于我们直接研究问题的复杂性，而不是专注于高效算法的开发，因此我们能够改进和扩展许多已知结果，这些结果之前是通过算法构造推导出来的。

Nov, 2010

无悔和奖励兼容的在线学习

本研究旨在应用赌注机制的类型建立算法，使学习算法对于观察到的事实的最佳专家后悔，并保证每个专家都以其真实信念的方式报告其每个事件的实现，从而实现在线学习环境中的学习。

Feb, 2020

批次通用预测

大语言模型 (LLMs) 最近因其生成类似人类的英语句子的惊人能力而受到广泛关注。为了公平地评估它们的性能，我们引入了批次遗憾的概念作为经典平均遗憾的修正，并研究了在无记忆源和一阶马尔可夫源的情况下，加常数预测器的渐近值。

Feb, 2024

基于大型语言模型的游戏智能代理调查

利用 LLMs 在复杂的电脑游戏环境中赋予游戏智能体人类般的决策能力，以推进人工智能 (AGI) 的发展，并提供了 LLM 基础的游戏智能体的综述，包括感知、记忆、思考、角色扮演、行动和学习的六个关键组成部分，调研了六种游戏类型的现有代表性 LLM 基础游戏智能体，并展望了未来的研究和发展方向。

Apr, 2024

多智能体模仿学习：价值易得，遗憾难求

协作学习中的多智能体模仿学习问题，以减小学习者和专家之间的价值差为目标，但无法保证对战略智能体的偏离具有鲁棒性。因此，研究了在马尔科夫博弈中以后悔差作为目标的代替方案，并提出了两种有效的方法来最小化后悔差。

Jun, 2024

面向基于文本的教育环境的通用智能体: RL 与 LLMs 的整合研究

通过将强化学习与大型语言模型结合，研究了在开放性文本学习环境中增强代理的泛化能力，提出了三种代理类型：基于强化学习的代理、基于大型语言模型的代理和融合两者的混合代理，以提高代理的性能和泛化能力，并通过 PharmaSimText 提供的基准测试验证了研究成果。结果表明，基于强化学习的代理在任务完成方面表现出色，但在提问诊断问题方面有所欠缺；相反，基于大型语言模型的代理在提问诊断问题方面表现较好，但在完成任务方面表现较差；而混合的大型语言模型辅助强化学习代理能够克服这些限制，凸显了将强化学习和大型语言模型相结合在开放性学习环境中开发高性能代理的潜力。

Apr, 2024

LLM 不确定环境下的决策行为评估框架

在不确定性下做决策时，个体往往偏离理性行为，这可以通过风险偏好、概率权重和损失规避三个维度进行评估。本文提出基于行为经济学的框架，评估大型语言模型（LLMs）的决策行为，结果显示 LLMs 通常表现出类似于人类的行为模式，如风险规避和损失规避，并且倾向于高估小概率。然而，不同的 LLMs 在表达这些行为的程度上存在显著差异。此外，研究还探讨了当 LLMs 嵌入社会人口学特征时的行为，并发现存在显著差异。因此，本研究倡导制定标准和指南，确保 LLMs 在提升复杂决策环境中的效用的同时，遵守伦理规范和尽量减少潜在偏见。

Jun, 2024