- CRAB:跨环境多模态语言模型智能体的对比基准
以 Crab 为基础的跨环境任务自动评估框架是第一套旨在支持跨环境任务的代理系统评估框架,包括了图形细粒度评估方法和任务构建的高效机制。
- 语言模型代理的树搜索
我们提出了一种推理时间搜索算法,用于在交互式网络环境中使语言模型代理能够进行探索和多步规划,实验证明搜索对于网络代理的有效性,并且在测试时间计算方面的性能随着增加而提高。
- BMW Agents - 多智能体协作的任务自动化框架
设计了一个灵活的智能体工程框架,着重规划和执行,适用于多个领域的复杂应用,提供可靠性的工业应用,并提出了确保多个自主智能体共同解决任务的可扩展、灵活和协作式工作流技术。
- EvoAgent:通过进化算法实现自动多智能体生成
通过应用进化算法,EvoAgent 可以自动将专家代理扩展为多代理系统,从而提高基于大型语言模型的代理在解决任务中的效力。
- 从用户界面轨迹识别用户目标
介绍了从观察到的用户界面轨迹中抽取目标的任务,并提出了一种新的评估指标来评估特定用户界面环境下两个任务描述是否是释义关系。通过与用户界面自动化任务的逆关系,利用 Android-In-The-Wild 和 Mind2Web 数据集进行了实验 - 超越裸露询问:使用 3D 场景图进行开放词汇物体检索
通过提出模块化方法 BBQ(Beyond Bare Queries),结合构建 3D 场景空间图表示、套用大型语言模型以及深度推理算法,本研究成功实现了生成准确的 3D 物体中心地图、应用于开放词汇 3D 语义分割、并具备在复杂查询中通过使 - 增强偏好驱动的强化学习中的鲁棒性:动态稀疏性提升
为了在人类中心环境中成功融入自主代理,代理应该能够从人类的本地环境中学习和适应。基于偏好的强化学习 (PbRL) 是一种能够从人类偏好中学习奖励函数的有希望的方法,使得强化学习代理能够根据人类的欲望来调整其行为。然而,人类生活在一个充满各种 - 增强模仿学习策略的在线适应性
我们提出通过在线调整来弥补模仿学习中的失败,我们的方法将预训练策略的动作建议与专家记录的相关经验相结合,通过适应的行为更好地模仿专家策略,实验表明适应的智能体表现比纯模仿学习的对应体更好,特别是在基础策略灾难性失败时,适应的智能体仍然能够实 - 关于数据规模对计算机控制代理的影响
研究使用 LLMs 对自主代理进行优化的方法,通过收集更多的数据,可以在域内获得较好的性能,但对于域外的高层任务来说,仅仅收集更多的数据可能不足以获得稳健的性能。
- 游戏中基于自然语言沟通的人工智能与人类协作
在信息不对称的情况下,开发能够制定策略并与人类合作的自主代理人是具有挑战性的,需要有效的自然语言交流。我们引入了一个共享控制游戏,两个玩家轮流共同控制一个令牌,以在不完整信息下实现共同目标。我们对一个自主代理人在此游戏中与另一位玩家(人类) - AndroidWorld: 一个用于自主智能体动态基准测试的环境
自主代理、AndroidWorld、奖励信号、编程任务工作流、计算机控制代理
- 软件开发智能体的迭代经验优化
在本文中,我们介绍了迭代式经验优化框架,使得大型语言模型(LLMs)驱动的自主代理能够在任务执行过程中迭代优化经验。我们提出了两种基本模式:连续模式,基于任务批次内最近的经验进行优化,和累积模式,跨越所有先前任务批次进行经验积累。我们的方法 - 天书副驾驶员:面向自主电子病历导航
通过自动化例行任务和简化电子病历系统的文档流程,我们的研究结果突显了自主代理对于减轻临床医生当前电子病历系统带来的认知负荷所具有的重要潜力。
- ICLR基于多样配置的移动设备控制代理的基准测试
通过引入 B-MoCA 基准测试,本研究针对移动设备控制代理开发自主代理,提高用户交互的效率和可访问性。在 Android 操作系统上创建了一个真实的基准测试,定义了 60 项常见日常任务,并通过随机化功能来评估代理的泛化性能。尽管代理们在 - N 代理临时团队合作
在多智能体环境中学习合作行为的现有方法通常假设相对限制性的情景,在完全合作的多智能体强化学习中,学习算法控制着场景中的所有智能体,而在特定团队合作中,学习算法通常只控制场景中的单个智能体。然而,在现实世界中,许多合作场景要求更灵活的学习方法 - 人工智能与人类智能在灾害响应规划中的协同
通过提出受到二元过程理论(DPT)启发的基于注意力机制的认知架构,结合快速启发式(类似人类)反应和机器智能的优化规划能力,我们展示了如何通过评估其在多个不同属性上的表现,动态决定二者的参与度以优化任务目标,并在动态环境中的轨迹规划中验证了该 - SNN4Agents: 自主代理的能效化具身脉冲神经网络开发框架
新兴的神经形态计算方法,如生物启发式的脉冲神经网络,通过优化技术实现了能效较高的 SNN 部署,从而为自主智能体应用提供了能源高效性。
- OSWorld: 多模态代理在真实计算机环境中的开放式任务评测
通过引入 OSWorld,我们创建了一个包含 369 个计算机任务的基准,以评估多模态代理在开放领域中执行任意应用程序所涉及的计算机任务的能力。在 OSWorld 上进行的全面评估为开发多模态通用代理提供了宝贵的洞见,这是以前的基准测试无法 - 通过大型语言模型探索自主代理:一项综述
大型语言模型(LLMs)正在改变人工智能,使得自主代理能够在不同领域执行多样化任务。这些代理具备类似人类的文本理解和生成能力,有望在从客户服务到医疗保健等各个领域引发革命。然而,它们面临着诸如多模态、人类价值取向、幻觉和评估等挑战。推动、推 - 设计人机一致性:了解人类对其代理人的需求
我们进行了一项关于设计能够在虚构但具有实际意义的在线相机销售任务中进行谈判的代理的质性经验研究,发现为了代理成功完成任务,人类 / 用户和代理需要在知识架构、自主性和代理性、操作性、培训、声誉启发式和伦理、人类参与等六个维度上达成一致。这些