利用世界模型进行紧急通信
安装概率世界模型到人工智能代理中,为人类与控制这些代理打开了一个高效的交流途径;我们开发了一种名为语言引导的世界模型(LWMs),通过阅读语言描述来捕捉环境动态,提高了代理的通信效率,同时允许人类用简洁的语言反馈在多个任务中同时改变行为。该研究证明了当前最先进的 Transformer 架构在该基准测试上表现不佳,激励我们设计更强大的架构。通过模拟展示了我们提出的 LWMs 的实用性,使代理能够在执行前生成和讨论计划,增强了代理的可解释性和安全性,并使其在真实环境中的性能提高了三倍,而无需在该环境中进行任何交互式经验的收集。
Jan, 2024
本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型,并利用该世界模型进行无监督学习,学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入,我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练,并将该策略传输回实际环境中。
Mar, 2018
本文提出了一种通过 fine-tuning 使用世界模型使大型自然语言模型获得基于物理环境的知识和技能,以帮助解决模型在简单的推理和规划中的局限性,实验证明这种方法能够提高基本的 LM 在 18 项下游任务上的性能,尤其是 1.3B 和 6B 的小 LM。
May, 2023
该论文聚焦于构建基于文本的游戏环境的世界模型,利用知识图谱和自然语言行动生成模型,提升增强学习智能体在该环境下的效率。通过零样本消融实验,表明该方法显著优于现有的文本世界建模技术及其各自贡献的重要性。
Jun, 2021
本文提出了一种新的模型和训练算法,在以原始像素为输入的环境中,利用学习到的表征空间的结构产生更一致的发言者,稳定学习,并提出了一种用于度量文本独立性的新型基于对齐的指标,相比策略梯度和其他竞争基线,我们的算法在通信效果方面有了大幅提升。
Sep, 2018
基于 2D 迷宫世界,通过虚拟代理学习语言的模型,将语言的生成与理解与其他计算流程分离,从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果,大幅优于其他五种比较方法。
Jan, 2018
通过增强和无监督学习,训练具备最少先验知识的机器人在仿真 3D 环境中理解自然语言指令,将语言符号与周围物理环境的感知表示和相关的行动序列联系起来,实现语言含义的压缩和提取,从而揭示出关于语言基于感知概念的本质和潜力。
Jun, 2017
大型语言模型潜在学习世界模型的研究及其评估方法和度量标准的提出,揭示了现有生成模型在评估世界模型的经典诊断上表现良好,但度量标准揭示了其世界模型的内在不连贯性和脆弱性,并提出新的评估方法以实现更接近真实逻辑的生成模型。
Jun, 2024
通过引入 Pandora,这篇论文通过大规模预训练和指导调节实现了领域通用性、视频一致性和可控性,从而在生成视频、允许实时控制和需要仅轻量级微调的模式下迈向建立更强大的通用世界模型。
Jun, 2024