两只长颈鹿在泥地中：利用游戏玩法研究大型多模型中的情景建模

Jun, 2024

两只长颈鹿在泥地中：利用游戏玩法研究大型多模型中的情景建模

Two Giraffes in a Dirt Field: Using Game Play to Investigate Situation Modelling in Large Multimodal Models

Sherzod Hakimov, Yerkezhan Abdullayeva, Kushal Koshti, Antonia Schmidt, Yan Weiser...

TL;DR我们将一种最近发展起来的评估模型应用于多模态模型，通过目标导向的游戏来评估模型的性能，我们发现最大的闭合模型在我们定义的游戏中表现相当好，而最好的开放式模型却困难重重。进一步分析发现，最大模型的卓越深层描述能力推动了一些性能。两种模型均有进一步发展的空间，保证了基准的持续重要性。

Abstract

While the situation has improved for text-only models, it again seems to be the case currently that multimodal (text and image) models develop faster than ways to evaluate them. In this paper, we bring a recently developed evaluation paradigm from text models to →

multimodal models evaluation goal-oriented game visual information deep captioning

发现论文，激发创造

基于游戏的视频上下文对话

本文介绍了基于现场足球比赛视频和 Twitch.tv 聊天记录的多说话者、视觉语境下的对话数据集，利用此数据集开发出具有多模态对话技能和视觉定位应用的对话模型，并通过多项评估指标和人类评估研究验证其效果。

Sep, 2018

关于大型多模型模型中 OCR 的隐秘之谜

该论文通过对现有公开的多模态模型进行综合研究，评估它们在文本识别、基于文本的视觉问题回答和关键信息提取等任务中的性能，发现这些模型主要依赖于语义理解进行字识别，对单个字符形状的感知较差，同时对文本长度漠不关心，无法有效检测图像中的细粒度特征，在传统文本任务中尚无法与领域特定方法相媲美，面临更大的挑战。

May, 2023

将常识世界模型注入图谱知识

本文研究在一个开放式世界的文本冒险游戏中生成叙事的设定，使用游戏状态的图形表示来训练模型，可以消耗和输出基于图形的表示和自然语言描述和动作。通过结合众包和模拟游戏玩法构建一组大量的任务和复杂的动作数据集来构建这样的模型，发现通过在图形上下文和目标上训练可以改善动作叙述模型的一致性，即使在测试时没有图形。这在自动指标和人类评估中都得到了证明。我们计划公开代码、新一组任务和最佳表现模型。

Jan, 2023

大型语言模型对计算机教育产生了重大影响，研究表明，这些模型能够比学生提供更好的解释，回答多项选择题高于平均水平，并生成能够通过入门课程中的自动化测试的代码。然而，仅仅转向视觉编程问题可能不足以解决在生成 AI 时代的学术诚信问题。

Nov, 2023

读动即玩（R2-Play）：多模态游戏指令决策转换器

本文针对人工智能中发展通用型代理的目标，研究了多任务学习和决策网络以及多模态游戏指令对代理的指导与改进作用，并通过实验证明多模态游戏指令的引入显著提升了决策变换器在多任务和泛化能力方面的表现。

Feb, 2024

语言空间中的图像：探索大语言模型在视觉和语言任务中的适用性

本篇文章研究了如何通过联合对话模型和语言模型使其能够有效地处理视觉信息，解决了在有限样本时视觉 - 语言任务的问题，使输出更易于解释。

May, 2023

多模态图神经网络用于视觉场景联合推理

利用多模式图神经网络（MM-GNN）作为一种视觉问答（VQA）方法，通过将图像表示为由三个子图组成的图形，利用场景文本中的各种信息来提高节点特征，从而显著提高需要阅读场景文本的两项 VQA 任务的性能。

Mar, 2020

使用基于游戏的框架开发 “野外” 情感数据集

本文提出了一个基于游戏的数据采集框架，使用深度学习方法构建情感分类器，并以情感网络游戏为接口，自动采集带标签的情感图像。通过比较测试结果，说明由于数据规模大、平衡性好，该数据集可用于构建比 CIFE 训练得到的情感检测器更加稳健的情感检测器。

Jul, 2016

游戏代理与大模型的调查：方法、应用和挑战

在复杂游戏场景中，本篇论文通过系统分析和总结现有基于大型模型（LMs）和基于 LM 的 Agent（LMAs）的体系结构、共性和挑战，提供了对 LM 在游戏中的应用现状的全面检视，并展望了其未来的研究方向。

Mar, 2024

多游戏决策转换器

本研究探讨了采用 transformer-based model 方法训练的多用途强化学习代理程序在 Atari 游戏中的表现，发现使用 Multi-Game Decision Transformer 模型的性能和可伸缩性最佳，并提供预训练模型和代码以鼓励该方向的进一步研究。

May, 2022