现代电子游戏中数据高效的模仿学习的视觉编码器
提出了一种解耦表示学习与行为学习的视觉模仿学习方法,使用标准的监督和自监督学习方法来学习视觉表示编码器,然后使用非参数局部加权回归来预测行为。实验结果表明,这种简单的解耦可以提高视觉模仿模型在离线演示数据集和实际机器人开门方面的性能。
Dec, 2021
本研究探讨了开源视频条件生成模型作为下游任务的编码器的潜力,重点研究了使用 BAIR 机器人推动数据集进行实例分割。研究人员提出使用视频预测模型作为通用视觉编码器,利用其捕捉关键的时空信息的能力,对实例分割等任务至关重要。受人类视觉研究的启发,尤其是共同命运的格式原则,该方法旨在开发一个能够有效区分前景与背景信息的运动性的潜在空间。研究人员利用一个基于 3D 向量量化变分自编码器(3D VQVAE)的视频生成编码器模型,以输入帧作为条件,并结合下游分割任务。实验涉及对预训练视频生成模型进行自适应,分析它们的潜在空间,并训练用于前景 - 背景分割的自定义解码器。研究结果展示了利用生成式前提学习进行下游任务的有希望结果,为计算机视觉应用中的场景分析和分割工作提供了进展。
May, 2024
该论文通过实验验证了从现代视频游戏中提取的合成 RGB 图像可以用于改进深度神经网络在图像分割和深度估计方面的性能,同时还说明了合成数据可通过简单的领域自适应技术提供类似或更好的结果,这表明与游戏开发者合作收集数据是未来计算机视觉的一个潜在方向。
Aug, 2016
本文研究了人工智能在玩捉迷藏等身体化游戏时,对其决策,社交能力和创造性问题解决能力的影响。通过引入隐藏游戏的想法,作者在高度互动的环境中,展示了智能体在玩捉迷藏游戏时,通过刻意注意到事物的永久性、自由空间和包含性等方面,学习到了一般化的表征能力,并提出了从静态大数据集向交互式、体验式学习的创新实验方法。
Dec, 2019
本研究论文介绍了一种创新的 AI 辅导方法,通过整合视觉编码器 - 解码器模型,以 Vision Transformer 作为编码器,GPT-2 作为解码器,实现了对视觉输入和文本交互的无缝集成。与传统实践中使用不同模型进行图像识别和文本辅导的做法不同,我们的集成架构直接处理输入图像,实现与 AI 辅导员的自然问答对话。这种独特的策略简化了模型架构,同时提升了人工智能与人类之间的整体用户体验。我们展示了样本结果以证明该模型的能力。结果强调了该方法作为创建涉及视觉输入的多领域高效 AI 辅导模型的潜力,尤其重要的是,无论选择了哪种视觉编码器或文本解码器,该潜力都是成立的。此外,我们对不同大小的 GPT-2 进行了实验,评估其对 AI 辅导员性能的影响,为我们所提出的方法的可扩展性和多功能性提供了宝贵的见解。
Nov, 2023
通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入,本文在简单的 Catcher 游戏上取得了高水平表现,显著超越了 CNN-AIRL 基线,但在 Enduro Atari 赛车游戏中表现不佳,这彰显了需要进一步研究的必要性。
Oct, 2018
通过训练自编码器来创造低维度的环境表征,并使用 CMA-ES 来训练神经网络控制器,从而解决神经进化在高维度控制器表示上的缩放问题,在基于 FPS Doom 的 VizDoom 环境中进行健康包采集任务,性能良好。
Jul, 2017
本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现,发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳,并提供预训练模型和代码以鼓励该方向的进一步研究。
May, 2022