利用奖励塑形模仿学习方法合成生成类似人类数据以解决序列决策问题

MMApr, 2023

利用奖励塑形模仿学习方法合成生成类似人类数据以解决序列决策问题

Synthetically Generating Human-like Data for Sequential Decision Making Tasks via Reward-Shaped Imitation Learning

Bryan Brandt, Prithviraj Dasgupta

TL;DR本研究通过结合奖励塑造和模仿学习算法，提出了一种生成人工智能系统中类似于人类决策数据的新算法，证明使用这种合成的数据可以成功解决具有逐步增加难度的计算机游戏中的决策任务，并且与人类表现几乎无差异。

Abstract

We consider the problem of synthetically generating data that can closely resemble human decisions made in the context of an interactive human-ai system like a computer game. We propose a novel algorithm that can generate synthetic, human-like, →

synthetic data human-ai system decision making reward shaping imitation learning

发现论文，激发创造

利用人类辅助完成顺序决策任务的最新进展

本文综述了五种最近主要依赖于人类指导的机器学习框架及其动机，假设和实施，并讨论可能的未来研究方向。

Jul, 2021

通过对抗性模仿从动作捕捉学习人类行为

本文介绍应用生成对抗性模仿学习方法，通过有限的高维仿人体运动演示数据，训练神经网络策略以产生类人的运动模式，并利用该方法构建子技能策略解决高维身体姿态控制任务。

Jul, 2017

利用人类指导提升深度强化学习任务

本文综述了五个最近的学习框架，这些框架主要依赖人类指导，而不是传统的一步一步的动作演示，评估了每个框架的动机、假设和实现，并讨论了可能的未来研究方向。

Sep, 2019

面向困难度调整的课程强化学习中的人类决策

研究人员设计了一个交互平台，利用人类的决策过程，通过向导课程强化学习结果，实现了成功地调整强化学习性能以适应人类期望困难程度的目标，并证明人类与计算机互动式课程增强学习的有效性，促进了该领域的发展。

Aug, 2022

MimicGen：一个用于可扩展机器人学习的数据生成系统，利用人类演示

利用少量人类示范，通过适应它们到新场景的方式，自动合成大规模且丰富的数据集，使机器人代理能够在长期视野和高精度任务中通过模仿学习取得良好的性能，比收集额外的人类示范更有效且经济。

Oct, 2023

透过指引提炼的可教授强化学习

本研究提出了一种基于 “可教学” 的决策系统的交互式学习监督范式，能够通过学习外部教师提供的结构化建议，解决复杂任务的学习难度，对拼图、导航和运动等各种任务需求的人工干预也相对较少。

Mar, 2022

认知模型作为模拟器：道德决策的案例

该研究提出了使用认知模型作为模拟人类代替人类与人工智能交互和收集反馈以提高训练效率的方法，并在道德决策制定方面实践，表明这是计算认知科学对人工智能的重要贡献。其中使用强化学习代理与认知模型交互学习公平性，并能理性调整行为，以此为例说明认知模型作为人类模拟器在训练人工智能系统方面是有效的。

Oct, 2022

人体姿态预测的模仿学习

提出了一种新的基于增强学习的姿势预测模型，结合行为克隆和生成对抗学习，通过这种模型对未来的人体姿势进行预测，实验结果表明该模型在短期和长期预测方面优于现有方法。

Sep, 2019

基于强化学习的数字人类互动推荐决策

本研究基于强化学习、多模态嵌入和图嵌入等技术，设计了一个新型的数字人互动推荐代理框架，以提高个性化推荐和数字人代理的效率和准确性。实验结果表明该框架具有更好的个性化客户参与和更好的客户体验。

Oct, 2022

通过观看 YouTube 玩耐心考验类游戏

使用回放数据引导的深度强化学习在稀疏奖励任务中往往表现不佳，本研究提出一种使用不同来源的杂乱视频进行一次性模仿学习的方法，在多个著名游戏中实现真人游戏水平以上的表现。

May, 2018