agents | BriefGPT - AI 论文速递

关键词agents

搜索结果 - 69

AAAI同行学习：通过动作建议从零开始学习复杂策略的群体
同行学习是一种新颖的高级强化学习框架，用于群体学习。通过研究代理人的学习行为，我们发现同行学习能够在多个具有挑战性的离散和连续动作空间中胜过单个代理人学习和基准方法，并能够从行为建议中发展出复杂策略。
PDF7 months ago
强化学习中的颜色对形状目标误泛化：一项案例研究
探讨了 Di Langosco 等人在 Procgen Maze 环境中最初展示出的颜色与形状目标错误泛化，即在一个模棱两可的选择中，代理人似乎更喜欢基于颜色而不是形状的泛化。训练了 1000 多个代理并在超过 1000 万个回合中对其进行
PDF7 months ago
AI 中的（非）理性：现状、研究挑战与待解之问
人工智能中理性的概念至关重要，但没有一个统一的定义来界定何为理性代理。本文调查了人工智能中的理性与非理性，并阐述了这一领域的问题。研究经济学、哲学和心理学等其他领域对理性的理解对其在人工智能中的观念产生了影响。从人工智能代理的行为出发，我们
PDF7 months ago
零阶异步学习与有界延迟：通信网络资源分配应用实例
代理协同训练的异步学习过程中，通过分布式优化和深度学习进行资源分配的关键问题与相关的研究领域探索。
PDF8 months ago
NeurIPS 2022 神经网络 MMO 挑战赛：基于专业化和交易的大规模多智能体竞赛
该论文总结了 NeurIPS-2022 神经多人在线游戏挑战赛的设计和结果，探索了该环境作为学习方法基准的潜力，并提出了一些对于具有稀疏奖励的复杂任务的实用强化学习训练方法。另外，论文还开源了基线模型，包括环境封装器、基准测试和可视化工具，
PDF8 months ago
信念形成与偏见信念的持续
在我们的研究中，我们提出了一个信念形成模型，其中代理试图区分两种理论，证实和证伪证据之间的强度不对称性使得信念倾向于生成强（可能是罕见的）证实证据和弱（频繁的）证伪证据的理论。在我们的模型中，信息处理的限制导致代理倾向于审查弱证据，这导致在
PDF9 months ago
独立学习个性化竞争行为的对比强化学习优化
在这篇论文中，我们提出了一个由三个神经层组成的新颖模型，用于学习竞争性游戏的表示、对特定对手策略的映射以及如何打乱对手。通过在线训练和对比优化的组合损失，我们的模型在 Pokemon 对战和四人竞技帽子师傅卡牌游戏中取得了较好的性能，尤其是
PDF9 months ago
ICML通过解耦环境和代理的表示实现高效强化学习
提出了一种利用机器代理的视觉知识学习结构化表示的强化学习算法，并通过辅助损失函数将其融入强化学习目标，在包括 5 种不同机器人的 18 个具有挑战性的可视化仿真环境中，我们的方法比现有的无模型方法表现更好。
PDF10 months ago
CGMI: 配置化通用多智能体交互框架
我们提出了可配置的通用多代理交互（CGMI）框架，以模拟真实场景中的人际互动。通过使用 CGMI 框架，我们模拟了教师和学生之间的多个课堂互动，实验结果表明教学方法、课程和学生表现等方面与真实课堂环境密切相关。
PDF10 months ago
基于 LLM 的代理系统是否存在任何社会原则？
大型语言模型代理应关注不仅限于 “以人为中心” 的对齐或应用，我们认为应更加关注代理本身，并探讨社会科学在代理中的潜力。
PDF10 months ago
多智能体优化解决方案的对比解释
在多个真实场景中，代理参与了优化问题，然而由于这些场景往往是过约束的，所以最优解并不总能满足所有代理的需求。为了解决代理对初始解满意度不高的问题，本文提出了一种名为 MAoE 的领域无关方法，通过生成一个新的强制满足代理需求的解并最小化该解
PDFa year ago
用语言学习建模世界
为了与人类进行互动，代理机构需要理解人们使用的各种语言类型，将其与视觉世界联系起来，并根据这些语言进行行动。本文提出了 Dynalang，这是一种代理机构，它学习了一个多模态世界模型，预测未来的文本和图像表示，并学会根据想象的模型展开行动。
PDFa year ago
ICCVADAPT: 高效的多智能体轨迹预测与适应
通过动态权重学习，我们提出了 ADAPT，这是一种新方法，可以有效地预测复杂交通场景中所有代理的轨迹，相比现有方法，我们在 Argoverse 和 Interaction 数据集中以较小的计算开销取得更好的表现。
PDFa year ago
以自我为中心的情景下的具体知识和抽象知识
在逻辑系统中，通过引入两种不同的模式可以捕捉个体知识和逻辑意义的知识，并证明这两种模式不能通过彼此来定义。
PDFa year ago
通过自动课程增强学习进行机动决策制定，无需手工制作奖励函数
本文提出了一种基于自动课程划分的强化学习方法，使得无人机在空战中能够自主地做出有效的机动决策，实验表明，该方法是培训无人机进行空战决策的重要组成部分。
PDFa year ago
利用鼹鼠学习：可转移的潜在空间表示，实现无需重建的导航
本研究提出通过盲辅助代理训练学习场景的可操作表示，用于导航决策，并且经实验证明该学习表示方式在处理复杂环境及从模拟到真实场景的转换时具有很好的鲁棒性。
PDFa year ago
语言模型的战略推理
使用预训练的大型语言模型，并通过有限的示例进行引导，使智能代理能够进行战略推理和协商，而不需要任何额外的训练或微调。
PDFa year ago
语言模型能解决计算机任务
本研究展示了一种使用 RCI 方法来自然语言执行计算机任务的代理方法，此方法能够显著提高计算机任务的自动化表现，优于现有的自然语言处理方法，并在自然语言推理任务中表现出较好的推理能力。
PDFa year ago
家务分工中的外部性
该研究探讨了公平分配问题中外部性的影响，并推广了比例性和无嫉妒命题的经典模型。
PDFa year ago
反思性人工智能
本文旨在探讨反思式 AI 的概念，并提出了一种基于反思概念的 AI 代理架构，以及相关的前行方向。
PDFa year ago