选择优秀的对手：如何指导程序战略的综合

IJCAIJul, 2023

选择优秀的对手：如何指导程序战略的综合

Choosing Well Your Opponents: How to Guide the Synthesis of Programmatic Strategies

Rubens O. Moraes, David S. Aleixo, Lucas N. Ferreira, Levi H. S. Lelis

TL;DR本文介绍了 Local Learner（2L），一种用于提供一组参考策略以指导在双人零和博弈中寻找策略的算法，并使用 MicroRTS 等三个游戏进行了实证研究，结果表明，与传统方法相比，2L 能够学习到提供更强的搜索信号的参考策略。同时，在 MicroRTS 比赛中，使用 2L 的综合策略表现优于两个最新 MicroRTS 比赛的获胜者，这些获胜者是由人类程序编写的。

Abstract

This paper introduces local learner (2L), an algorithm for providing a set of reference strategies to guide the search for programmatic strategies in two-player →

local learner zero-sum games reference strategies search algorithm microrts

发现论文，激发创造

即使学习最弱的学习者，我们也能学到什么？—— 为编程策略学习草图

使用行为克隆进行草图学习可帮助合成程序化策略，与传统方法相比，我们的综合器可以生成优于传统方法和最新竞争方法的策略。

Mar, 2022

通过学习细化搜索策略来学习查找证明和定理 - 循环不变式合成的案例

我们提出了一种新的自动定理证明方法，其中使用 AlphaZero 风格智能体自我训练来改进表达为非确定性程序的通用高级专家策略，同时具有类似的教师代理机自我训练来生成适当相关性和难度的任务以供学习者解决，利用最小领域知识来解决合成训练数据不可用或难以合成的问题，具体举例来说，我们考虑了用于命令程序的循环不变量合成，并使用神经网络来改进教师和求解策略。

May, 2022

利用语言学习程序抽象和搜索启发

该论文介绍了一种名为 LAPS 的技术，它使用自然语言注释来引导库和神经引导搜索模型的联合学习，以实现程序的归纳合成。与一些自然语言注释不可用的测试时间相比，LAPS 可生产高质量的程序库并提高搜索效率和泛化性。

Jun, 2021

多人零和游戏中解决联盟困境的学习

本研究通过对称的零和矩阵游戏，证明了联盟形成可以被看作是一个社会困境，并且实证表明，在多代理强化学习中，天真的方法往往失败。同时，我们引入了点对点的合约机制来发现和执行联盟。最后，我们将我们的代理模型推广到了包括时间延伸合约的情况，并提出了进一步研究的机会。

Feb, 2020

通过语义学习猜测 LTL 综合中的获胜策略

本研究通过学习的方式提供了一种猜测赢得 LTL 综合问题特定形式的胜利策略的技术，并在比较之前的相关研究的基础上，结合人类类推角度将在构建游戏状态的高度结构化逻辑信息，即语义标记方面的显著优化。

May, 2023

迈向对称多人游戏的有原则的超越人类水平 AI

多人游戏的独特挑战在于均衡策略的非唯一性和代理人执行高度次优策略的风险。本文首次解决了多人对称标准形式游戏中的这些挑战，给出了 AI 代理人应该找到的正确解决方案以及能够证明解决该类游戏的通用算法框架。我们还证明了许多先前实用系统中开发的元算法甚至无法实现基本目标，即获得代理人的总奖励的平等份额。

Jun, 2024

房子永远赢：评估 LLMs 中战略欺骗的框架

我们提出了一个用于评估大型语言模型（LLMs）中策略性欺骗的框架。在这个框架中，LLM 作为一个游戏大师在两个场景中表现：一个场景中具有随机游戏机制，另一个场景中可以选择随机或故意的行动。我们以二十一点作为示例，因为其行动空间和策略不涉及欺骗。通过将 Llama3-70B、GPT-4-Turbo 和 Mixtral 在二十一点中进行基准测试，并将结果与公平玩法的预期分布进行比较，以确定 LLMs 是否会发展出偏向 “庄家” 的策略。我们的研究结果表明，当 LLMs 得到隐含的随机指令时，它们与公平玩法存在显著偏差，这表明在模糊的情境中它们倾向于进行战略操纵。然而，当给予明确的选择时，LLMs 大部分遵守公平玩法，这表明指令的框架在诱发或缓解 AI 系统中潜在的欺骗行为中起着至关重要的作用。

Jul, 2024

多阶段策略卡牌游戏的两阶段强化学习

这项研究介绍了一种针对《魔戒卡牌游戏》的两阶段强化学习策略，采用分阶段学习方法，通过在简化版本和完整的游戏环境中逐步学习，显著提高了人工智能代理在面对《魔戒卡牌游戏》的不可预测和具有挑战性的情境中的适应能力和表现。此外，论文还探讨了多智能体系统，其中不同的强化学习代理用于游戏的各个决策方面，并在一组 10,000 局随机游戏中实现了 78.5％的胜率提升。

Nov, 2023

大型语言模型的战略行为：游戏结构 vs 上下文框架

通过四个典型的双人博弈游戏，研究了 GPT-3.5、GPT-4 和 LLaMa-2 这三种大型语言模型在战略决策能力方面，同时考察了上下文框架对模型决策的影响，结果发现 LLM 在战略决策方面存在限制和熟练程度差异，不宜在需要复杂战略推理的任务中不加区分地使用。

Sep, 2023

程序合成的分治对齐策略

通过分解和结构对齐来指导程序综合搜索可以解决程序综合的指数级搜索空间难题，并且可以应用到视觉推理等领域。

Jan, 2023