视频游戏中非玩家角色的交互式训练

ICMLJun, 2019

视频游戏中非玩家角色的交互式训练

Towards Interactive Training of Non-Player Characters in Video Games

Igor Borovikov, Jesse Harder, Michael Sadovsky, Ahmad Beirami

TL;DR通过训练一个多分辨率的马尔可夫模型的集合，我们提出了一种互动式的模仿学习的方法来创建高质量的 NPC 行为，从而大大减少了传统手工制作 NPC 的时间和工作量。

Abstract

There is a high demand for high-quality non-player characters (npcs) in video games. Hand-crafting their behavior is a labor intensive and

non-player characters npcs behavior imitation learning markov models

发现论文，激发创造

Bunny-VisionPro：实时双手灵巧遥操作的模仿学习

Bunny-VisionPro 是一种实时的双手熟练远程操作系统，利用虚拟现实头盔并设计了新颖的低成本设备为操作员提供触觉反馈，以提高沉浸感。该系统通过创新设计结合碰撞和奇异避免以保证安全，并在保持实时性能的同时，优于之前的系统在标准任务套件上取得更高的成功率和减少的任务完成时间。此外，高质量的远程操作演示提高了下游的模仿学习性能，提高了泛化能力。值得注意的是，Bunny-VisionPro 能够实现具有挑战性的多阶段、长期视野的熟练操纵任务的模仿学习，这在之前的研究中很少有人涉及。该系统在同时处理双手操作、优先考虑安全和实时性能方面的能力使其成为推动熟练操纵和模仿学习的强大工具。

Jul, 2024

EquiBot: 适应 SIM (3)- 等变扩散策略的通用且高效学习

我们提出 EquiBot，一种稳健、数据高效和具有广泛适用性的机器人操作任务学习方法，结合 SIM (3)- 等变神经网络架构和扩散模型，从有限的数据中学习并在不同环境中泛化。

Jul, 2024

贝叶斯解决模仿间隙

在缺乏奖励信号的环境中，我们提出了一种基于贝叶斯的解决方案（BIG），通过使用专家演示和指定未演示的探索性行为成本的先验，来推断贝叶斯逆强化学习（IRL）中的奖励后验，从而学习到基于贝叶斯的最优策略。我们的实验表明，BIG 能够在测试时适应模仿差距，同时在不存在模仿差距时仍能通过专家演示学习到最优行为。

Jun, 2024

ROS-LLM: 具备任务反馈和结构化推理的 ROS 框架

通过自然语言提示和来自机器人操作系统（ROS）的上下文信息，我们提出了一个直观的非专业人士机器人编程框架。该框架集成了大型语言模型（LLMs），使非专业人士能够通过聊天界面向系统表达任务要求。它具有与 ROS 集成的 AI 代理与大量开源和商用 LLMs 的连接、从 LLM 输出中提取行为和执行 ROS 动作 / 服务的自动化提取、支持三种行为模式（顺序、行为树、状态机）、模仿学习以将新的机器人行为添加到可能的动作库中以及通过人类和环境反馈实现 LLM 反思的功能。大量实验证实了该框架在各种场景（包括长时间视野任务、桌面重新排列和远程监督控制）中的鲁棒性、可扩展性和多功能性。为了促进我们框架的使用和支持我们结果的可复制性，我们已经将我们的代码开源。您可以在以下网址访问：this https URL

Jun, 2024

命令式学习：机器人自主性的自我监督神经符号学习框架

通过引入自我监督的神经符号化 (NeSy) 计算框架，基于符号推理能力，本文提出了基于指令学习 (IL) 的新的面向机器人自主性的方法，克服了数据驱动方法在应对不断变化的环境中泛化能力差的问题，通过三个主要组件的循环学习，验证了其在路径规划、规则归纳、最优控制、视觉测距和多机器人路径规划等五个机器人自主性任务上的有效性，并预期其能够促进各个领域的进一步研究。

Jun, 2024

基于专家演示的自适应网格生成的迭代尺寸场预测

通过协同网络和在线数据获取方案结合的方式，AMBER 将网格生成视为一种模仿学习问题，能够在推理过程中对任意新的几何形状进行高效准确的模仿，从而实现资源分配和精确模拟工程系统中的复杂物理系统。

Jun, 2024

EvIL：演化策略用于可广泛应用的模仿学习

在仿真学习中，我们通过整合奖励模型集合以及使用演化策略方法 EvIL 来提高重新训练和迁移性能，同时加速目标环境中的重新训练，在连续控制任务中比之前的工作更加高效地重新训练策略。

Jun, 2024

利用局部性提高机器人操作中的样本效率

SGRv2 是一种通过改进视觉和动作表示来提高样本效率的模仿学习框架，其中关键的归纳偏置 - 动作局部性假设认为机器人的动作主要受目标物体及其与局部环境的交互影响。在模拟和真实环境中进行的广泛实验证明了动作局部性对提高样本效率的重要性。SGRv2 在 RLBench 任务中使用仅 5 个演示并在 26 个任务中超过 RVT 基线，同时在 ManiSkill2 和 MimicGen 中的稠密控制下与 SGR 相比，成功率提高了 2.54 倍。在真实环境中，仅使用八个演示，SGRv2 可以以显著更高的成功率执行各种任务，相比基线模型。

Jun, 2024

BiKC：健臂机器人操作的关键姿态准确性策略

本文介绍了一种适用于双手操作的新型关键姿势条件一致性策略，该策略以层次化的模仿学习框架为基础，通过预测关键姿势指导轨迹生成，并在一阶段任务完成时标记，通过快速推理生成行动序列，实验结果表明该方法在成功率和操作效率方面优于基线方法。

Jun, 2024

弥合交流鸿沟：人工智能代理通过模仿学习手语

通过从演示中学习，我们研究了通过获取非语言交流技能，特别是手语理解和表达方面的潜在应用，我们专注于对人工智能代理进行模仿学习，使用计算机视觉和深度学习从视频中提取信息，并使用强化学习使代理能够复制观察到的动作，这种方法消除了需要额外硬件的需求，我们成功地教授了涉及上半身（即臂和手）的 5 种不同的手势，为人工智能代理的高级沟通技能铺平了道路。

Jun, 2024