- RepairAgent:基于 LLM 的自主程序修复代理
该论文介绍了 RepairAgent,其是第一个基于大型语言模型(LLM)的自主代理解决程序修复挑战的工作。RepairAgent 通过调用合适的工具来自主规划和执行修复操作,包括收集有关错误的信息、收集修复材料以及验证修复结果,并在先前修 - 通过 Dropout 扩展基于学习的政策优化算法以适用于时间相关任务
该论文介绍了一种基于模型的方法,用于针对高度非线性环境中的自主代理训练反馈控制器。我们希望该训练策略确保代理满足以离散时间信号时序逻辑(DT-STL)表达的特定任务目标。为了解决长时间跨度任务目标的问题,我们引入了一种基于随机梯度近似算法的 - 闭环机器人反应式规划的模型检测
使用模型检验创建差分驱动轮式机器人的多步计划,以避免即时危险,并以近实时的方式改善局部障碍物避免的效果。
- 代理指导大型语言模型成为普适零样学习推理器
改善大型语言模型在通用语言理解任务上的零样本推理能力的方法,通过建立一个自动代理来指导大型语言模型的推理过程,将零样本推理能力进一步发挥到更多任务中,取得了在众多数据集上的最先进的零样本性能。
- 鼓励可推导行为的自主性:带观察信息的重复双矩阵斯塔克伯格博弈
当与其他非竞争决策代理交互时,自主代理的行为必须是可推测的,以便传达其意图和策略。本文使用具有观测的重复双矩阵斯塔克尔伯格博弈模型推断性问题,其中领导者和追随者反复互动,并通过观察动态反应。我们展示了可推测性损失的上界,该上界取决于互动次数 - 人机交互中利用情绪诱发的背景音乐
音乐对心情有影响,而心情对情绪和认知加工以及决策产生影响。研究发现,了解人们在行动时所听的音乐对于预测其行为是一个重要特征,但迄今为止还没有明确证据表明机器人能够通过考虑人们所听的音乐来改善其与人互动的决策能力。本研究通过实验结果填补了这一 - 面向机器人堆叠任务的因果概率预测、行动选择和解释框架
通过引入因果模型和物理仿真能力,提出了一个新颖的概率框架,使得机器人能够感知和评估积木堆叠任务的当前状态,推理出最佳动作,并生成事后的反事实解释。
- 少样本类别增量学习的主动类别选择
通过与用户的有限交互,为真实世界的应用而设计的机器人将需要不断学习其环境。本文结合了少样本类增量学习(FSCIL)和主动类选择(ACS)的思想,开发了一个新框架,使自主代理能够通过要求用户仅对环境中最富信息的少数对象进行标记来持续学习新对象 - CAMMARL: 多智能体强化学习中的符合性行为建模
本文提出了一种基于置信集和符合预测的多智能体强化学习算法 CAMMARL,并通过在两个完全协作的多智能体任务中进行的多个实验证明了该算法可以提高智能体的策略学习能力。
- 在强化学习中创建多级技能层次结构
基于图形结构的交互模式,提出了一种基于分层图划分的自主代理技能分层方法,该技能分层具有多层抽象和在强化学习中的实用性。
- ChessGPT:连接策略学习和语言建模
在本论文中,我们提出了一个名为 ChessGPT 的神经网络模型,该模型整合了供强化学习所需的历史政策数据和自然语言形式的分析洞察力,从而使智能体能够更好地解决决策问题和棋类游戏。
- OVO: 开放词汇占用
本文提出了 Open Vocabulary Occupancy (OVO) 算法,通过知识蒸馏和像素 - 体素筛选两个关键步骤,可以对任意类别进行语义占据的预测,同时适用于大多数最先进的语义占据预测模型。在 NYUv2 和 Semantic - 一种内存高效的蛇游戏自主代理深度强化学习方法
本文提出了一种改进的深度强化学习方法,使用轻量级卷积神经网络和简单的奖励机制对压缩的图像数据进行处理,避免了需要额外环境信息的需求,从而使得使用更小的内存和时间能够在经典控制游戏 “贪吃蛇” 中实现与其它深度强化学习方法相似的性能表现。
- 基于布局感知的梦想家用于具身指代表达理解
本文研究 “身体化指称表达接地” 问题,设计出一种自主学习的导航机器人来遍历未知环境,探索被简明自然语言描述的目标位置,并取得了比现有最优解更优的结果。
- 学习有关的内容:使用任务相关嵌入的跨域模仿学习
本研究提出了一种基于对抗训练的可扩展框架,用于实现基于跨领域演示的自主智能体学习任务的能力,通过学习映射来实现不同领域间的策略转移,解决了其他方法在许多领域方面存在的问题。
- 自主智能体的基于核心的认知架构
本文研究了一种进化方法来创建具有认知功能的自主体的认知架构,采用功能核心产生自主体的智能功能,并介绍了基于构造主义理论的自主体认知能力的演化。
- 使用无模型多智能体强化学习掌握战术游戏 Stratego
DeepNash 是一个能够从零开始学习玩 Stratego 的自主智能体,利用无搜索的博弈论模型自学习深度强化学习方法,学会决策不完美信息的游戏,并超越了现有的 AI 方法,在 2022 年的 Gravon 游戏平台上与人类专家玩家竞争, - AAAI共享自治中的干预优化
研究共享自治的方法,提高人类与自主代理合作的绩效和用户体验,提出两种模型无关的强化学习方法来限制自治代理干预的数量,并比基线表现更好。
- ICLRC-Learning: 通过递归分类实现目标的学习
探究了预测和控制自主智能体未来状态分布的问题,提出通过训练分类器间接地估计条件概率密度函数来解决,进而探究了基于 Q-learning 的目标条件强化学习方法的理论基础和假设,并且提出了可以预测新政策未来状态分布的算法。
- ICML基于图形策略学习的开放式即席团队合作
本文提出建立一个自主代理,该代理可以在没有先前的协调机制的情况下快速适应以与队友合作的挑战性问题,包括联合培训,该解决方案基于图神经网络学习代理模型和不同团队组成下的联合行动价值模型,并提出了新的行动价值计算方法, 经实验证明,该方法成功地