网络学习和游戏中 LLM 代理的后悔案例研究
通过 Game Theory 基于 GAMA-Bench 框架评估 LLMs 的决策能力,研究发现 GPT-3.5 在鲁棒性方面表现出色,但其概括能力相对有限,通过 Chain-of-Thought 等方法可以提高其性能;此外,评估发现 GPT-4 在 GAMA-Bench 上表现最好,得分为 72.5,而 GPT-3.5 的不断更新也标志着模型智能的显着提高。
Mar, 2024
本文提出了一种新的在线学习方法,用于在大型 extensive-form 游戏中最小化后悔。该方法通过在线学习函数逼近器来估计选择特定行动的后悔值,并使用无悔算法根据这些估计值来定义一系列策略。我们证明了该方法的正确性,并证明了只要逼近函数能够实现后悔值,方法就能自我学习并收敛到纳什均衡。我们的技术可以被理解为现有大型游戏中抽象工作的原则性推广;在我们的工作中,抽象和均衡都是在自我博弈中学习的。我们在实验中展示了该方法可以在相同资源条件下实现比最先进的抽象技术更高质量的策略。
Nov, 2014
本研究探讨了一类广泛问题的在线可学性,并将其扩展到远超过外部遗憾的性能评估简单规范。我们的框架同时捕捉了其他著名规范,例如内部和一般 Phi 规范、学习使用非加性全局成本函数、Blackwell 的可挑战性、预测者的校准、自适应遗憾等。我们展示了在所有这些情况下的可学习性归因于控制相同的三个量:马田哥小定理收敛项、如果已知未来则能够表现良好的能力描述项、以及顺序 Rademacher 复杂性的概括,该复杂性在 (Rakhlin, Sridharan, Tewari, 2010) 中得到研究。由于我们直接研究问题的复杂性,而不是专注于高效算法的开发,因此我们能够改进和扩展许多已知结果,这些结果之前是通过算法构造推导出来的。
Nov, 2010
本研究旨在应用赌注机制的类型建立算法,使学习算法对于观察到的事实的最佳专家后悔,并保证每个专家都以其真实信念的方式报告其每个事件的实现,从而实现在线学习环境中的学习。
Feb, 2020
大语言模型 (LLMs) 最近因其生成类似人类的英语句子的惊人能力而受到广泛关注。为了公平地评估它们的性能,我们引入了批次遗憾的概念作为经典平均遗憾的修正,并研究了在无记忆源和一阶马尔可夫源的情况下,加常数预测器的渐近值。
Feb, 2024
利用 LLMs 在复杂的电脑游戏环境中赋予游戏智能体人类般的决策能力,以推进人工智能 (AGI) 的发展,并提供了 LLM 基础的游戏智能体的综述,包括感知、记忆、思考、角色扮演、行动和学习的六个关键组成部分,调研了六种游戏类型的现有代表性 LLM 基础游戏智能体,并展望了未来的研究和发展方向。
Apr, 2024
协作学习中的多智能体模仿学习问题,以减小学习者和专家之间的价值差为目标,但无法保证对战略智能体的偏离具有鲁棒性。因此,研究了在马尔科夫博弈中以后悔差作为目标的代替方案,并提出了两种有效的方法来最小化后悔差。
Jun, 2024
通过将强化学习与大型语言模型结合,研究了在开放性文本学习环境中增强代理的泛化能力,提出了三种代理类型:基于强化学习的代理、基于大型语言模型的代理和融合两者的混合代理,以提高代理的性能和泛化能力,并通过 PharmaSimText 提供的基准测试验证了研究成果。结果表明,基于强化学习的代理在任务完成方面表现出色,但在提问诊断问题方面有所欠缺;相反,基于大型语言模型的代理在提问诊断问题方面表现较好,但在完成任务方面表现较差;而混合的大型语言模型辅助强化学习代理能够克服这些限制,凸显了将强化学习和大型语言模型相结合在开放性学习环境中开发高性能代理的潜力。
Apr, 2024
在不确定性下做决策时,个体往往偏离理性行为,这可以通过风险偏好、概率权重和损失规避三个维度进行评估。本文提出基于行为经济学的框架,评估大型语言模型(LLMs)的决策行为,结果显示 LLMs 通常表现出类似于人类的行为模式,如风险规避和损失规避,并且倾向于高估小概率。然而,不同的 LLMs 在表达这些行为的程度上存在显著差异。此外,研究还探讨了当 LLMs 嵌入社会人口学特征时的行为,并发现存在显著差异。因此,本研究倡导制定标准和指南,确保 LLMs 在提升复杂决策环境中的效用的同时,遵守伦理规范和尽量减少潜在偏见。
Jun, 2024