思维克隆：通过模仿人类思维学习同时行动

Jun, 2023

思维克隆：通过模仿人类思维学习同时行动

Thought Cloning: Learning to Think while Acting by Imitating Human Thinking

Shengran Hu, Jeff Clune

TL;DR我们引入了一种新颖的模仿学习框架，Thought Cloning，训练人工智能代理程序像人类思考一样思考，结果表明 Thought Cloning 学习速度更快，表现优异，更易于调试和提高 AI 安全性和可解释性。

Abstract

Language is often considered a key aspect of human thinking, providing us with exceptional abilities to generalize, explore, plan, replan, and adapt to new situations. However, reinforcement learning (RL) agents are far from human-level →

reinforcement learning thought cloning ai safety interpretability performance

发现论文，激发创造

过程克隆的思维 imitation 链

本研究提出了一种称为程序克隆的技术，它使用监督序列预测来模拟专家计算的过程，从而实现了对专家行为中间计算的模仿。该方法不仅学习了如何执行一个特定的操作，更重要的是学习了执行该操作的过程和原因。实验证明，使用程序克隆学习中间计算可以在未知环境配置中产生显著的泛化效果。

May, 2022

模仿交互智能

通过虚拟环境中的交互式训练、行为测试和逆强化学习技术，实现了大规模人类行为模仿，提高了人工智能代理的交互能力，并成功解决了代理评估方面的挑战。

Dec, 2020

从观察中进行行为复制

本研究提出了基于行为克隆的观察学习技术，旨在通过自我监督方式获取经验并观察专家的技能表现来学习任务，并在多个不同的模拟领域展示了与现有技术相当的任务表现和更高的学习速度。

May, 2018

在人工智能代理中评估科学思维

孩子们表现出惊人的学习和思考能力，与形式化的研究中的科学推理方法非常相似。本研究利用 Blicket 检测建立了交互式 EST 环境，旨在评估人工智能的科学思维能力，研究发现今天的学习方法在科学思考中具有低效性，需要未来的研究来构建人类类似的智能。

Jun, 2022

机器人模仿人类动作

通过模仿学习，我们能够快速理解一个新任务，通过演示，我们可以直接获得哪些动作需要执行以及它们的目标的知识。本文介绍了一种新的模仿学习方法，解决了机器人模仿人类所面临的视角变化和身体模式等挑战。我们的方法可以利用单个人类演示来抽象展示任务的信息，并利用该信息进行泛化和复制。我们通过两种最先进的方法进行了新的集成：扩散式动作分割模型用于抽象演示的时间信息，以及开放词汇对象检测器用于空间信息。此外，我们通过符号推理来改进抽象的信息，并利用逆向运动学创建行动计划，以使机器人能够模仿演示的动作。

Jan, 2024

人类驱动动态数据集扩充改进行为克隆

本文介绍了如何将行为克隆与人在环环学习相结合，利用一种新方法在模拟中允许专家随时控制代理并提供最优解，从而解决了行为克隆中的一些缺陷，提高了训练效率和降低了所需资源，实验表明该方法在定量评估和人类相似性方面都具有更好的效果。

Jan, 2022

使用混合型深度强化学习代理建模人类认知

本文将深度强化学习与漂移扩散模型相结合，提出了一个新的框架用于模拟时间压力对人类认知绩效的影响，通过 N = 50 的用户研究得出的结论表明，该框架可以定量改善人类认知模型，同时也可以模拟外部因素对人类行为的影响。

Jan, 2023

探究自动驾驶行为克隆的局限性

本文介绍一种新的基准测试，以探究行为克隆的可扩展性和限制性，结果表明，行为克隆在复杂的驾驶情况下拥有先进的成果，但是仍存在数据集偏差和过度拟合的问题，缺乏因果模型和培训不稳定性导致进一步的研究需要进行。

Apr, 2019

行为克隆变压器是神经符号推理器

本研究探索了将符号模块的信息注入交互式智能体的技术，同时测试了这些智能体在文本游戏中的推理能力，结果表明将符号模块的操作注入到行动空间中可以提高代理程序在涉及算术、导航、排序和常识推理的四个文本游戏基准上的表现。此技术易于扩展到新的智能体，环境和符号模块。

Oct, 2022

VizDoom 中的行为克隆

通过只使用像素数据作为输入，本研究论文描述了训练自主智能体在游戏《毁灭战士 2》中通过模仿学习（IL）进行游戏的方法。我们还探讨了强化学习（RL）相对于 IL 在摄像机运动和轨迹数据方面的人类性，并通过行为克隆（behavioural cloning）研究了个体模型学习不同行为特征的能力。我们尝试模仿具有不同游戏风格的真实玩家的行为，发现我们可以训练出具有攻击性、被动性或比传统 AI 更接近人类的行为的智能体。我们提出了这些在视频游戏中引入更多深度和接近人类行为的方法。经过训练的 IL 智能体在我们的数据集中的表现与普通玩家相当，同时优于最差的玩家。尽管性能没有常见的 RL 方法强，但它为智能体提供了更强的接近人类行为特征。

Jan, 2024