- 人体物体交互:基于人类级别指令
能够从人类级别的指示中同时合成对象运动、全身运动和手指运动的第一个完整系统。
- CoCo 矩阵:智能代理协作与认知贡献分类
通过采用 Flower 和 Hayes 的认知过程理论,我们提出了 CoCo Matrix,这是一个基于熵和信息增益的二维分类法,用以描述新的人工智能写作系统与人类合作写作的模型。我们将三十四个已发布的系统位于四个象限中,发现低熵高信息增益 - ICLR从图模型视角学习多智能体通信
通过引入 CommFormer,将多个智能 Agent 之间的通讯架构视为可学习的图形,采用连续松弛和关注机制的方式,在协作任务上优化通讯图并通过梯度下降同时完善架构参数,证实了模型在不同合作场景下,无论 Agent 数量的变化,都能协调更 - 音频 - 视觉导航的模拟到现实迁移和频率自适应声场预测
在学习机器人任务与模拟端到端成功的基础上,视觉导航策略的转换取得了很大进展,然而,现有的声音 - 视觉导航的模拟到真实转换策略在进行数据增强时往往是经验性的,而没有对声学差异进行测量。本文提出了首个声音 - 视觉导航的模拟到真实处理方法,将 - 拍卖式联邦学习中的智能代理:一项综述
该论文提供了首次的智能代理人对拍卖联邦学习(IA-AFL)文献的综述,通过提出一个独特的多层次分类法,将 IA-AFL 的现有研究组织成为以利益相关者、采用的拍卖机制和代理人目标为基础的多角度视角,同时分析了现有方法的局限性、总结了常用的性 - MMLLM 代理操作系统
AIOS 是一种将大型语言模型嵌入操作系统的操作系统,旨在优化资源分配、促进代理间的上下文切换、实现代理的并发执行、为代理提供工具服务并维护代理的访问控制。通过并发执行多个代理的实验,我们证明了 AIOS 模块的可靠性和效率,旨在提高大型语 - 语言模型能够减少信息市场的不对称
这篇论文通过建立一个开源模拟数字市场,利用语言模型驱动的智能代理人代表外部参与者买卖信息,解决了买方对信息市场的检查悖论。代理人具备评估特权信息质量和选择性遗忘的能力,使得卖家能够临时授权专有信息的访问,从而显著减少未经授权的保留风险,同时 - 基于广义占据模型的可转移强化学习
智能代理应该是综合性的,能够快速适应和推广不同的任务,提出了一种新的模型类别 - 广义占据模型(GOM),它在保留模型强化学习的综合性的同时避免累积误差,通过直接建模长期结果,GOM 既避免了累积误差,又在任意奖励函数下保持了综合性。
- AgentScope 多智能体平台:灵活而强大
AgentScope 是一个开发人员中心的多代理平台,具有消息交换作为核心通信机制,通过丰富的句法工具、内置资源和用户友好的交互,显著降低了开发和理解的障碍,提供内置和可定制的容错机制,以及多模态数据生成、存储和传输的系统级支持,同时还提供 - 将保障放在自治之上:LLM 代理在科学中的风险
通过全面考察科学领域的基于大语言模型的智能 Agent 的漏洞,找出潜在的风险、强调对安全措施的需求,以及提出人工监管、Agent 对齐、环境反馈三元框架来缓解风险,还强调了目前保护科学 Agent 的限制和挑战,并呼吁针对这些问题制定改进 - ACL谈判对话系统综述
综述了最近关于谈判对话系统的研究,包括任务、评估和方法论,探讨了多模态、多方和跨文化谈判情景,并旨在为社区提供系统的谈判对话系统概述以及为未来研究提供启示。
- P2DT:基于渐进提示的决策 Transformer 对任务增量学习中的遗忘进行缓解
通过在新任务训练期间动态追加决策标记,我们的方法,Progressive Prompt Decision Transformer (P2DT),改进了基于 transformer 的模型,从而促进了任务特定策略,减轻并行和离线强化学习情景中 - 探索基于大型语言模型的智能代理:定义、方法与前景
对基于大型语言模型(LLM)的智能代理进行了深入调查,涵盖了单代理和多代理系统中的定义、研究框架、组成、认知和规划方法、工具利用、对环境反馈的响应,以及在多代理系统中部署 LLM-based 代理的机制,包括多角色协作、信息传递和缓解代理之 - 如果 LLM 是巫师,那么代码就是魔棒:关于代码如何赋予大语言模型作为智能代理的调查
通过将代码集成到大型语言模型的训练数据中,可以提高语言模型的代码生成能力、推理能力以及生成结构化和精确的中间步骤,并将其转化为智能代理在复杂自然语言任务中的应用。
- 通过学习适应原则进行快速的开放式世界适应
通过使用简洁而有效的新方法 NAPPING(Novelty Adaptation Principles Learning),我们的研究展示了深度强化学习(DRL)代理可以在各个领域快速有效地适应各种新情况。
- RLHF 中的策略优化:偏离偏好数据的影响
通过对直接优化偏好和基于奖励模型的策略优化的比较,该研究发现使用足够的无偏好数据进行策略优化能够显著提高性能,并且 RMB-PO + 方法表现最佳。
- 理解代理程序:利用大型语言模型进行行为解释
基于状态和行为观察生成自然语言解释,不依赖于基础模型的表示,能解释智能代理行为,使用户能够与预训练的大型语言模型进行交互并生成有助于解释与推理的解释。
- 基于预备性基于语言约定的高效人工智能协作
使用大型语言模型开发协同规约,能够有效引导人类和人工智能之间的协调;通过将问题分解、多个新会话和人类反馈等策略应用于规约制定问题,可以获得更高效的协调规约;在与真实人类协同时,该方法与人类偏好更加一致,性能平均提高了 15%。
- 多时间尺度世界模型
在这项工作中,我们提出了一种概率形式主义来学习多时间尺度世界模型,即 Multi Time Scale State Space (MTS3) 模型。我们的模型使用多时间尺度上的计算有效推理方案,以对未来数秒的高准确性和不确定性进行预测。我们 - 元工具基准:决定是否使用工具以及选择哪个工具
本文提出了 MetaTool,这是一个用于评估大型语言模型(LLMs)的工具使用意识和正确选择工具能力的基准测试,并通过实验证明大多数 LLMs 在工具选择方面仍然存在困难。