评估生成模型中的世界模型

Jun, 2024

Evaluating the World Model Implicit in a Generative Model

Keyon Vafa, Justin Y. Chen, Jon Kleinberg, Sendhil Mullainathan, Ashesh Rambachan

TL;DR大型语言模型潜在学习世界模型的研究及其评估方法和度量标准的提出，揭示了现有生成模型在评估世界模型的经典诊断上表现良好，但度量标准揭示了其世界模型的内在不连贯性和脆弱性，并提出新的评估方法以实现更接近真实逻辑的生成模型。

Abstract

Recent work suggests that large language models may implicitly learn world models. How should we assess this possibility? We formalize this question for the case where the underlying reality is governed by a deterministic finite automaton. This includes problems as diverse as simple lo

large language models world models evaluation metrics coherence generative models

发现论文，激发创造

语言引导的世界模型：一种基于模型的人工智能控制方法

安装概率世界模型到人工智能代理中，为人类与控制这些代理打开了一个高效的交流途径；我们开发了一种名为语言引导的世界模型（LWMs），通过阅读语言描述来捕捉环境动态，提高了代理的通信效率，同时允许人类用简洁的语言反馈在多个任务中同时改变行为。该研究证明了当前最先进的 Transformer 架构在该基准测试上表现不佳，激励我们设计更强大的架构。通过模拟展示了我们提出的 LWMs 的实用性，使代理能够在执行前生成和讨论计划，增强了代理的可解释性和安全性，并使其在真实环境中的性能提高了三倍，而无需在该环境中进行任何交互式经验的收集。

Jan, 2024

使用深度生成模型对自主代理能力进行评估

文章介绍了一种基于深度生成建模的概率世界模型，使得自主代理机器人能够可靠地沟通其在所需任务中的能力并且可以计算出任务完成的精确概率分布。

Mar, 2022

利用世界模型进行紧急通信

引入了一种 Language World Models 的生成式模型，用于预测未来观测的潜在代码，提高了对语言信息的理解能力，进而提高了 2D 栅格世界的语音导航任务的任务成功率。

Feb, 2020

学习基于知识图谱的文本环境世界模型

该论文聚焦于构建基于文本的游戏环境的世界模型，利用知识图谱和自然语言行动生成模型，提升增强学习智能体在该环境下的效率。通过零样本消融实验，表明该方法显著优于现有的文本世界建模技术及其各自贡献的重要性。

Jun, 2021

深度進化神經反饋與離散世界模型

通过遗传算法，同一物体的不同部分可以被联合训练，得到与分开训练相媲美的性能，该研究进一步证明了深度神经进化在复杂异构体系结构下的有效性。

Apr, 2019

LanGWM: 语言引导的世界模型

通过语言为鲁棒的动作选择增强状态抽象技术，利用语言为基础的视觉特征来改进强化学习中的世界模型学习，提高对于复杂任务中的视觉控制的推广性。

Nov, 2023

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018

数学故事问题的全球模型

本文提出了一个基于图形的语义形式化方法 MathWorld，用于对数学问题进行世界建模，以进一步提高自然语言处理模型的推理和世界建模能力，并且基于该方法，成功生成了新问题并验证了其在其他方面的应用。

Jun, 2023

因果世界模型的内在激励学习

研究探索通过推断环境因果结构以收集相关干预数据为手段，建立捕捉传感器运动交互背后真实物理机制的世界模型对于提高深度学习、强化学习、迁移学习和泛化能力至关重要。

Aug, 2022

反事实推理：语言模型在因果理解中是否需要世界知识？

本文通过使用反事实条件句，利用心理语言学实验和更大规模的数据集，对比了多种流行的预训练语言模型中的反事实预测，并发现大多数模型主要受简单的词汇线索驱动。当控制世界知识和词汇线索效应时，只有 GPT-3 在反事实细微差别的语言基础知识上显示出敏感性。

Dec, 2022