ByteSized32：一种用于生成文本游戏的特定领域世界模型的语料库和挑战任务

May, 2023

ByteSized32：一种用于生成文本游戏的特定领域世界模型的语料库和挑战任务

ByteSized32: A Corpus and Challenge Task for Generating Task-Specific World Models Expressed as Text Games

Ruoyao Wang, Graham Todd, Eric Yuan, Ziang Xiao, Marc-Alexandre Côté...

TL;DR研究了语言模型在生成基于科学和常识推理任务的世界模型的能力，以生成基于任务的文本游戏解决方案作为问题。使用 32 款高度模板化的 Python 文本游戏和一套用于评估的 16 个未见过的文本游戏说明书，提出了一系列衡量模拟的有效性、合规性、可玩性、可赢性和与物理世界的对齐度的自动和手动度量标准，并展示了 GPT-4 在运行此项任务时产生可运行游戏的能力的单次评估结果，结果表明这是一项非常具有挑战性的任务，重点讨论了未来改进的方向，包括 GPT-4 表现出的能力，可以很好地模拟远近达到标准任务解决方案，并且随着模拟包含干扰物或偏离动作空间中的标准解决方案而性能下降。

Abstract

In this work we examine the ability of language models to generate explicit world models of scientific and common-sense reasoning tasks by framing this as a problem of generating text-based games. To support this

language models text-based games simulation validity gpt-4 canonical task solutions

发现论文，激发创造

语言模型是否能作为基于文本的世界模拟器？

当前文本基模型在作为文本世界模拟器方面的表现仍不可靠，需要进一步创新，本研究提供了新的见解和新的基准来追踪未来模型的发展。

Jun, 2024

超越语言模型：字节模型是数字世界模拟器

通过使用下一个字节预测，bGPT 模型能够匹配各种模式的专业模型，包括文本、音频和图像，并为预测、模拟和诊断算法或硬件行为提供新的可能性。

Feb, 2024

测量大规模多任务语言理解

论文提出了一种新的测试方法，以测量文本模型的多任务准确性，涵盖了包括数学、历史、计算机科学、法律等 57 项任务，为了达到高准确性，模型必须具备丰富的世界知识和问题解决能力。通过综合评估模型的学术和专业理解的广度和深度，我们的测试可以用于分析许多任务中的模型并确定重要的缺陷。

Sep, 2020

大型语言模型是否能够很好地玩文本游戏？现状和开放问题

本技术报告针对大型语言模型 (ChatGPT 和 GPT-4)，探究它们在玩文字游戏方面的能力，实验证明 ChatGPT 表现与现有系统相比具有竞争力，但仍没有足够的智能去构建游戏世界模型、利用已有世界知识和推断游戏进程中的目标。这为人工智能、机器学习和自然语言处理交叉领域开辟了新的研究问题。

Apr, 2023

GenSim：通过大型语言模型生成机器人仿真任务

通过使用语言模型生成丰富的仿真环境和专家演示，在模拟数据上进行多任务策略训练，极大地增强了任务级泛化能力，并实现了对未见过的现实任务的强大转移能力。

Oct, 2023

计算机科学学位项目中大型语言模型的表现

这篇论文在应用科学大专的计算机科学学士学位课程中研究了不同大型语言模型的表现和效果，发现当前的大型语言模型在不同计算机科学领域表现出色，但由于数学计算方面的限制，即使是 GPT-4.0 也无法通过该课程。

Jul, 2023

大型语言模型在初级编程教育中的应用：ChatGPT 的性能和对评估的影响

该论文研究了大型语言模型（LLMs）ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现，并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务，使用完整任务描述作为 LLMs 的输入，通过 CodingBat 的单元测试评估生成的回复。此外，还分析了文本解释和程序代码的普遍可用性。结果显示得分高，正确响应率为 94.4％至 95.8％，同时文本解释和程序代码的可用性可靠，从而为将 LLMs 纳入编程教育和评估中打开了新的途径。

Aug, 2023

超越模仿游戏：量化和推断语言模型的能力

通过引入 Beyond the Imitation Game 基准测试（BIG-bench），我们评估了多种大小的语言模型在 204 个跨不同领域的任务上的表现，发现规模越大，其表现和校准也越好，但与人类专家相比还是很差，同时也发现在歧义上下文中情境偏见随规模增加而增加，但通过提示可以改善。

Jun, 2022

基于 GPT 的模型遇上仿真：如何高效地运用大规模预训练语言模型于仿真任务中

本文是第一篇关于利用大规模预训练语言模型（LLMs）进行科学模拟的研究，聚焦于四个建模和模拟任务，分别评估 LLMs 的预期优势和局限性，并为模型构建者提供实用指南，包括解释概念模型结构、总结模拟输出、通过文本传达模拟可视化洞见以及解释模拟错误并提供解决方案。

Jun, 2023

解决抽象推理语料库（ARC）挑战的方法

使用大型语言模型（LLMs），尤其是 GPT4，通过文本赋予模型一些人类先验知识，并使用一些常见过程对 ARC 任务进行求解，结果表明当利用视觉问答工具作为图像解释工具，并具有过去记忆的多智能体系统进行扩展后，我们可以解决大多数的 ARC 挑战问题。

Jun, 2023