- 自动游戏测试的强化模仿学习
游戏开发的自动化测试是减少开发成本和提高效率的关键技术之一,EVOLUTE 是基于模仿学习的架构,结合了行为克隆和能量模型,它在射击和驾驶游戏中表现出更高的泛化能力和性能。
- VizDoom 中的行为克隆
通过只使用像素数据作为输入,本研究论文描述了训练自主智能体在游戏《毁灭战士 2》中通过模仿学习(IL)进行游戏的方法。我们还探讨了强化学习(RL)相对于 IL 在摄像机运动和轨迹数据方面的人类性,并通过行为克隆(behavioural cl - 基于路标的机器人操作模仿学习
通过自动路径点提取,我们的方法可以将演示过程分解成最小集合的路径点,并与任何行为克隆(BC)算法结合,从而提高模拟环境中的成功率至多 25%,在实际世界的双臂操纵任务中提高 4-28%,将决策时间范围缩小最多 10 倍。
- 嵌入式演示数据集搜索实现行为克隆
使用潜空间索引演示数据集,成功地利用搜索技术实现基于行为克隆算法的控制,因此收获了具有人类特征、可以适应各种情境的代理行为,比现有的训练模型更加高效,具有无需任务适应等优点。
- 自监督对抗模仿学习
本文提出一个包含鉴别器的行为克隆学习方法,用于解决之前的学习策略容易被困入错误局部最小值的问题,避免了人工干预的需要,利用鉴别器计算得到过渡函数从而帮助学习。
- 提升 TD3-BC:放松策略约束用于离线学习和稳定的在线微调
该研究探讨了如何通过 RL 和行为克隆来优化策略以在离线环境下改善性能,并且证明了通过减少 BC 的影响来在训练后调整权衡以产生经过优化的政策是可能的,并且可以用于稳定的在线微调。
- AAAI人类驱动动态数据集扩充改进行为克隆
本文介绍了如何将行为克隆与人在环环学习相结合,利用一种新方法在模拟中允许专家随时控制代理并提供最优解,从而解决了行为克隆中的一些缺陷,提高了训练效率和降低了所需资源,实验表明该方法在定量评估和人类相似性方面都具有更好的效果。
- 关于深度强化学习中的彩票券及最小任务表示
本文研究了在强化学习任务中 Lottery Ticket 假设的性能表现,通过比较基于行为克隆的前馈网络和强化学习代理的任务完成效果,我们发现可以在不会影响性能的前提下对前者的稀疏度进行更高程度的剪枝。同时,我们发现 Lottery Tic - 离线强化学习实践
此研究聚焦于离线强化学习,重点是离线学习方法的数据集属性和离线方法的成功相关性,实验证明离线 RL 的多样性和高回报的例子对于成功至关重要,并表明行为克隆仍然是竞争对手。
- 使用行为克隆玩 Minecraft
本文讲述了我们参加 MineRL 2019 比赛的经历,我们使用行为克隆的算法来预测人类玩家的行动并在最终排名中获得了第五名,同时我们也发现了这种方法性能会根据训练停止的时间而有明显变化,我们进行了更多的实验来研究不同的工程决策对性能的影响 - 模仿学习方法的差异最小化视角
本文提出了一种基于分歧最小化的 Imitation Learning 方法,即 $f$-MAX,将 IRL 方法如 GAIL 和 AIRL 联系起来并揭示了它们的算法特性,通过期望最大化演算法来教授机器人在推手环境中进行多样化的行为。