深度 TAMER：高维状态空间中的交互式智能体塑形

Sep, 2017

深度 TAMER：高维状态空间中的交互式智能体塑形

Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces

Garrett Warnell, Nicholas Waytowich, Vernon Lawhern, Peter Stone

TL;DR本论文提出了 Deep TAMER，这是 TAMER 框架的扩展，利用深度神经网络的表征能力快速学习复杂任务，通过仅仅 15 分钟的人类反馈训练出比人类更优秀的 Atart 游戏 “保龄球” 的自主学习代理。

Abstract

While recent advances in deep reinforcement learning have allowed autonomous learning agents to succeed at a variety of complex tasks, existing algorithms generally require a lot of training data. One way to increase the speed at which agents are able to learn to perform tasks is by le

deep reinforcement learning human input deep tamer deep neural networks atari game

发现论文，激发创造

DQN-TAMER: 人类参与反馈的强化学习与难以处理的反馈

本研究使用即时反馈，通过引入人与环境的互动，提高了强化学习在机器人学中的应用性，并提出了一种 DQN-TAMER 算法，在模拟和现实环境中都有优越表现。

Oct, 2018

基于策略相关的人类反馈的深度强化学习

本研究在 COACH 算法基础上，对代理策略表达进行了修改，运用深度神经网络实现按照高维视觉输入完成任务的学习，并通过 Minecraft 中实时人类反馈，10-15 分钟即可完成任务。

Feb, 2019

特征扩张奖励学习：重新思考人类输入

本文提出了一种人与机器人交互的新方式，通过以人类指导机器人从高表达特征的状态到不表达该特征的状态的方法来学习机器人掌握的特征，然后将其集成到奖励函数中，大大降低了样本复杂度并提高了奖励的泛化性能。

Jun, 2020

基于 Transformer 的世界模型需要 100k 次交互

使用变换器对真实世界情节进行自回归处理，生成有意义、新的经历，进而训练超越之前强化学习算法的策略。

Mar, 2023

基于强化学习的具身智能体通过互动与多感知模拟对人类用户进行建模

本文研究交互式机器学习的发展和应用，探讨人类反馈对于机器人行为的影响和提高机器人性能的方法，发现人类反馈参数对于任务性能的影响很大，需要更好地了解人类反馈的潜在变量以更好地处理人机交互领域的问题。

Jan, 2017

增加输入维度能否改善深度强化学习？

本文通过提出在线特征提取器网络（OFENet）探究增加输入维度是否能够提高模型无关深度 RL 算法的性能和样本效率，证明了高维特征表征能够提高深度 RL 算法的学习效率和样本效率，并在数字实验中表现出更好的表现和样本效率比其他同类算法更先进的算法。

Mar, 2020

深度学徒学习在游戏中的应用

这篇论文提出了一种新的学习方法，基于以前在强化学习中的监督学习技术，使用 Atari 游戏的视频帧来教授人工智能代理玩游戏，虽然结果不如强化学习的最新成果，但证明这种方法有潜力并值得进一步研究。

May, 2022

利用人类反馈的强化学习来提升多模态交互代理

使用人类反馈的强化学习方法，通过记录人类与模拟世界中的代理进行交互，构建能够自然交互和学习的代理行为，有效提高了代理在复杂领域中的行为表现。

Nov, 2022

使用 SLAM 增强的深度强化学习玩《毁灭战士》游戏

该研究使用前人认为人类认知中的语义概念和抽象能力，将对象和结构元素添加到图像输入，改进了深度 Q 学习网络（DQN）代理模型的策略学习框架，并在 3D 第一人称射击游戏 “毁灭战士” 中表现出更好和更有效的策略。

Dec, 2016

适应性棋局环境中的强化学习用于检测人类可理解概念

本研究展示了一种探测自学习算法在训练过程中内部概念的方法，以国际象棋游戏代理为例进行了演示，此方法适用于没有大量计算资源或机器学习模型的研究团体。

Nov, 2022