- 高精度工业连接器插入的触觉敏感的牛顿 VAE
本文提出了一种基于触觉传感器的 NewtonianVAE 模型,结合机械臂插入任务中的握姿补偿,针对物理环境中插入 USB 插头的精确姿态定位问题进行了实验研究。实验结果表明,该模型在图像到物理坐标的映射等方面具有相对更高的准确性,相比基于 - ICLR基于概率模型的策略搜索学习鲁棒控制器
通过世界模型估计真实环境以逼近最优策略的基于模型的强化学习方法,通过在高斯过程动态模型中强制施加似然噪声的下限来正则化策略更新,从而得到更健壮的控制器。
- 通过世界模型发现和实现目标
介绍了一种基于无监督学习的方法 ——Latent Explorer Achiever(LEXA),该方法通过学习世界模型,训练探索者和实现者策略来解决复杂视觉环境中人工智能代理如何学会解决多种不同任务的问题,该方法在四个标准机器人操作和运动 - KDDDropout 的梦幻之地:从学习模拟器到现实的泛化
本研究探索从梦境环境到真实环境的通用方法 Drean2Real。借鉴于领域随机化,结合使用丢失(Dropout)技术,我们使用具有可配置参数的世界模型训练来创建多样的梦境环境,提高控制器从神经网络梦境环境到现实环境转移的能力,并证实了丢失梦 - KDD基于像素的离散控制深度主动推理:在汽车赛车问题上的评估
本研究探讨了在没有接触到车的状态的情况下,使用深度主动推理(dAIF)代理在 OpenAI 的赛车基准测试中的表现,并通过无监督表示学习来学习状态推断和控制,结果表明我们的模型达到了与深度 Q 学习相当的性能,但与其他一些世界模型方法相比, - 文本建模世界
该研究提供了一个数据集,用于训练能够构建基于知识图谱的交互叙事世界模型的学习代理。数据集包含了 24198 个富自然语言观察和知识图谱之间的映射,以及多个流派的 27 个游戏中的训练数据和 9 个附加的游戏中包含的 7836 项测试集等内容 - 基于物体中心表征的自监督视觉强化学习
该研究提出了使用基于物体的表征作为组成性生成世界模型所学习的模块化和结构化观察空间,以帮助自主代理发现和学习有用的技能,并进一步将这些技能组合起来解决复杂的组合任务。
- 将世界模型视为图:学习用于规划的潜在地标
该论文提出 L3P 算法,使用稀疏的多步转换学习基于图结构的世界模型并生成 Q - 函数,其在高维连续控制任务上具有优越的性能,是深度强化学习中可扩展规划的重要进展。
- 基于模型的强化学习动态视野价值估计
本文提出了一种名为 DMVE 的新方法,通过利用重建模块的世界模型来进行图像特征提取和价值估计,以确定模型知识的有效性,实现了自适应价值扩展的目的,并在基准视觉控制任务中表现出更高效和更准确的价值估计,优于同类方法。
- 无需向前预测的学习:没有前向预测的世界模型
本研究介绍了一种名为 'observational dropout' 的改进强化学习方法,该方法通过限制智能体在每个时间步的真实环境观察能力,强制智能体学习填补观察不足的世界模型,结果表明基于这种模型的强化学习算法可以提高智能体的学习效率和 - EMNLP基于模型的交互式语义解析:统一框架和文本到 SQL 的案例研究
本论文提出了一个新的交互式语义解析问题的统一形式,其中的目标是设计一个基于模型的智能代理。代理能够自主决定是否和何时需要人类干预,并生成自然语言的澄清问题,使用了世界模型并在两个 Text-to-SQL 数据集上得到了很好的效果。
- NIPS递归世界模型促进策略演化
使用生成式的递归神经网络以压缩时空特征的方式进行快速的非监督式学习,模拟了一些常见的强化学习环境。提取的环境模型特征被输入到简洁的进化训练策略中,取得了在各种环境中的最先进成果。最后,我们在由内部环境模型产生的环境中完全训练我们的智能体,并 - 世界模型
本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型,并利用该世界模型进行无监督学习,学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入,我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的 - 驱动好奇心的学习的计算理论
探索好奇心如何帮助机器人和人类发现解决复杂问题的新方法和技能,以及在自主学习和自组织发展中的重要性。
- 从好奇心内在动机中出现的结构化行为
通过实现以好奇心驱动的内在动机的神经网络,我们表明计算的内在动机模型可能解释婴儿发展视觉运动学习的关键特征,包括自我运动预测、物体注意以及物体获取等。
- ACL深度 Dynq-Q: 任务完成对话策略学习中计划的集成
通过 Deep Dyna-Q 的强化学习框架进行对话策略学习,将对真实用户的模拟与生成的体验相结合,应用于模拟和 Human in the loop 设置中的电影票预订任务。