Agent AI：多模态交互视野调查

Jan, 2024

Agent AI: Surveying the Horizons of Multimodal Interaction

Zane Durante, Qiuyuan Huang, Naoki Wake, Ran Gong, Jae Sung Park...

TL;DR多模态人工智能系统中，基于 Agent 的多模态智能研究，通过在真实和虚拟环境中嵌入具有感知能力的智能体，能够处理和解释视觉和语境数据，以提高智能系统的上下文感知和交互能力。

Abstract

multi-modal ai systems will likely become a ubiquitous presence in our everyday lives. A promising approach to making these systems more interactive is to embody them as agents within physical and virtual environments. At present, systems leverage existing foundation models as the basi

multi-modal ai systems embodied agents agent ai context-aware ai systems multimodal intelligence

发现论文，激发创造

位置论文：走向整体智能的智能代理

利用大型基础模型提高我们对开放环境中感知信息的理解，在 AI 研究中强调发展集成大型基础模型的代理人 AI，这一新兴领域涉及机器人技术、游戏和医疗等多种具身和基于代理的多模态交互，并讨论了代理人 AI 在各个领域和任务中展现出的能力，挑战我们对学习和认知的理解，通过跨学科视角探讨了代理人 AI 的潜力，并强调将其纳入科学讨论中，为未来的研究方向提供基础并促进更广泛的社会参与。

Feb, 2024

呼唤具象人工智能

我们提出了 “具身人工智能” 作为追求 “人工通用智能” 的下一个基本步骤，并对其与当前人工智能进展，特别是大型语言模型进行对比。我们横跨哲学、心理学、神经科学和机器人技术等多个领域探讨了具身概念的演变，以突显具身人工智能如何与静态学习的经典范式有所区别。通过拓宽具身人工智能的范围，我们提出了一个基于认知架构的理论框架，强调感知、行动、记忆和学习作为具身代理的重要组成部分。该框架与弗里斯顿的主动推理原则相一致，为具身人工智能的发展提供了一个全面的方法。尽管人工智能领域取得了进展，但仍存在诸多挑战，如制定新的人工智能学习理论和创新先进硬件等。我们的讨论为未来的具身人工智能研究提供了基础性的指导方针。强调创造具身人工智能代理能够与人类和其他智能体在真实环境中实现无缝通信、协作和共存的重要性，我们旨在引导人工智能社群应对多方面挑战，并抓住在追求人工通用智能过程中出现的机遇。

Feb, 2024

体感人工智能综述：从模拟器到研究任务

本文对体感式人工智能领域进行了综合系统的调查和研究，包括对九个当前体感式人工智能模拟器的评估，以及对于该领域的三项研究任务，即视觉探索、视觉导航和身体问题回答的探索，并旨在为该领域模拟器和未来方向的选择提供建议。

Mar, 2021

模仿交互智能

通过虚拟环境中的交互式训练、行为测试和逆强化学习技术，实现了大规模人类行为模仿，提高了人工智能代理的交互能力，并成功解决了代理评估方面的挑战。

Dec, 2020

人工智能教育的多模态性：迈向人工通用智能

该研究全面探讨了多模态人工智能方法在教育环境中实现通用人工智能的途径，着重分析了人工智能在教育系统中的演进和整合，强调多模态学习（包括听觉、视觉、动觉和语言学习）的重要作用，研究深入探讨了通用人工智能的关键方面，包括认知框架、高级知识表示、自适应学习机制、战略规划、复杂语言处理和多样的多模态数据源整合，并批判性评估了通用人工智能在重塑教育范式、提高教学和学习效果、填补现有方法论空白以及在教育环境中解决伦理考量和负责任使用方面的潜力。该论文还讨论了多模态人工智能在教育中的意义，并提供对通用人工智能发展中未来方向和挑战的洞察。这项研究旨在为人工智能、多模态和教育的交叉领域提供细致的理解，为通用人工智能的未来研究和发展奠定基础。

Dec, 2023

交互式代理基础模型

提出了一种交互式代理基础模型，采用新颖的多任务代理训练范式，实现了跨领域、数据集和任务训练 AI 代理的能力，展示了其在机器人技术、游戏 AI 和医疗保健领域的性能，支持多模态和多任务学习。

Feb, 2024

Virtual Embodiment: 人工智能研究的可扩展长期战略

该论文提出了一种名为虚拟体验（virtual embodiment）的多模式 AI 策略，它允许开发人工智能的可伸缩性，并以一种伦理负责的方式在领域内逐步推进。

Oct, 2016

关于对称实现的出现

人工智能（AI）已经彻底改变了人类的认知能力，并促进了能够与人类在物理和虚拟环境中进行交互的新型 AI 实体的发展。我们介绍了一个统一表示形式 —— 对称现实框架，它能包括各种物理 - 虚拟融合的形式，从而让从更广泛的角度理解 AI 实体如何与人类协作以及如何巩固不同的物理 - 虚拟整合技术路径。我们提出了一个 AI 驱动的主动辅助服务的示例，展示了对称现实系统在特定任务（如倒水）中的运作，并为不同领域的研究人员和实践者提供有益的观点和指导，从而为人工智能与人类在物理和虚拟环境中的共存的持续研究做出贡献。

Jan, 2024

通过交互式基于语境的语言指导重新定义具有代表性的代理人能力，改变以人为中心的 AI 协作

本文介绍了一种交互式的 “体现代理” 系统，它具有适应性，能够有效地处理自然语言指令，并提供反馈。同时，还介绍了一种用于收集有关该系统的大量文本指令的众包工具，以及该系统具有学习能力的数据集和基线模型。

May, 2023

视觉语言行为模型在具身人工智能中的调查

综合调查了深度学习、多模态模型、视觉 - 语言 - 动作模型、具身人工智能的快速发展。

May, 2024