M-GWAP: 一种基于 WordPress 的在线多模态心态标注休闲游戏

MMMay, 2019

M-GWAP: 一种基于 WordPress 的在线多模态心态标注休闲游戏

M-GWAP: An Online and Multimodal Game With A Purpose in WordPress for Mental States Annotation

Fabio Paolizzo

TL;DRM-GWAP 是一款采用众包策略的多模态游戏，旨在使用者对多媒体资料进行精神状态标注，采用 WordPress 开发以让无程式技能者也能参与游戏；游戏运用了积分、排行榜、启发式提示等策略以保持玩家兴趣并有助与标注质量提升，经过 Alpha 和 Beta 测试后游戏已有成熟版可供使用。

Abstract

m-gwap is a multimodal game with a purpose of that leverages on the wisdom of crowds phenomenon for the annotation of multimedia data in t

m-gwap multimodal game wisdom of crowds annotation mental states

发现论文，激发创造

WorldGPT: 以语言模型为基础的多模态世界模型

构建于多模式大型语言模型（MLLM）之上的通用世界模型 WorldGPT，通过分析各领域的数百万个视频，使其理解世界动态。为了进一步增强 WorldGPT 在专门场景和长期任务中的能力，我们还将其与一种结合了内存卸载、知识检索和上下文反思的新型认知架构进行了集成。通过在涵盖各种现实情境的多模式状态转换预测基准 WorldNet 上进行评估，直接展示了 WorldGPT 准确建模状态转换模式的能力，确认其在理解和预测复杂情境动态方面的有效性。我们进一步探索了 WorldGPT 作为世界模拟器的潜力，通过高效合成多模式指令实例，帮助多模式代理在不熟悉的领域进行泛化，被证明与真实数据一样可靠用于微调目的。项目可在 https://github.com/DCDmllm/WorldGPT 找到。

Apr, 2024

MMMU: 一个专家级通用人工智能的大规模多学科多模态理解与推理基准

我们介绍了 MMMU：一个新的基准，旨在评估多模态模型在需要大学级学科知识和深思熟虑的大规模跨学科任务上的表现。MMMU 包括来自大学考试、测验和教科书的 11500 个精心收集的多模态问题，涵盖六个核心学科：艺术与设计、商业、科学、健康与医药、人文社会科学和技术与工程学。这些问题涵盖 30 个学科和 183 个子领域，包括 30 种高度异质的图像类型，如图表、图示、地图、表格、乐谱和化学结构。与现有基准不同，MMMU 侧重于使用领域特定知识进行高级感知和推理，挑战模型执行类似于专家面临的任务。我们对 14 个开源 LMM 和专有的 GPT-4V (ision) 进行了评估，突显了 MMMU 所带来的巨大挑战。即使是先进的 GPT-4V 只能达到 56％的准确率，表明有很大的改进空间。我们相信 MMMU 将推动社区构建面向专家人工通用智能的下一代多模态基础模型。

Nov, 2023

MMInA：多跳多模态互联网代理的基准测试

多模态网站的自主体代理在逐渐演变的真实环境中完成复杂用户任务具有挑战性，提出了 MMInA，这是一个多跳和多模态评估综合互联网任务能力的基准，通过构建真实世界的多模态网站和综合任务评估协议，发现自主体代理在长链多跳互联网任务方面存在挑战，提出了一种简单的记忆增强方法，明显提高了代理的单跳和多跳网络浏览能力。

Apr, 2024

基于无线感知的 AI 生成数字内容引导

本文提出了一种新方法，将无线感知技术与人工智能生成的内容相结合，提出了一个统一的无线感知 - 人工智能生成内容框架，以改善数字内容生产的质量，在服务需求的基础上生成相应的数字内容。该框架能够根据用户的姿势作为约束生成内容，并能接受用户的反馈，从而调整边缘服务器上的计算资源以提高服务质量。实验结果验证了该框架的有效性，凸显了其在准确生成数字内容方面的潜力。

Mar, 2023

基于指令微调基础模型的多模式网络导航

本文提出了一种基于视觉 - 语言模型的指令驱动表征，通过离线培训方式对 WebGUM 模型进行了训练，使其在视觉感知、HTML 理解和多步推理能力上表现出色，相比现有最佳方法提高了 31.9％以上。

May, 2023

LanGWM: 语言引导的世界模型

通过语言为鲁棒的动作选择增强状态抽象技术，利用语言为基础的视觉特征来改进强化学习中的世界模型学习，提高对于复杂任务中的视觉控制的推广性。

Nov, 2023

VisualWebArena: 在现实视觉网络任务中评估多模态代理

通过对多模态网络代理的性能进行评估，我们引入了 VisualWebArena，它是一个用于评估自主多模态代理在具有视觉基础任务方面性能的基准。我们对现有的自主代理进行了广泛的评估，并揭示了文本模型的几个限制以及现有多模态语言代理能力上的差距。

Jan, 2024

WorldGPT: 一个受 Sora 启发的视频 AI 代理，将文本和图像输入作为丰富的世界模型

通过使用基于 Sora 的多模态学习，利用文本提示和相关图像来构建熟练的世界模型框架，该方法在维护时间一致性和确保动作流畅性方面表现出强大的效果和创新性。

Mar, 2024

用于训练通才智能体的大规模多智能体小游戏

我们提出了 Meta MMO，这是一个用于强化学习基准的多代理小游戏集合，它建立在之前两次 NeurIPS 竞赛的研究基础 Neural MMO 之上，并扩展了该环境的多个计算效率高的小游戏。我们通过使用一组权重学习玩多个小游戏来探索 Meta MMO 的泛化能力。我们以 MIT 许可证发布了环境、基线和训练代码。我们希望 Meta MMO 能够推动 Neural MMO 和更广泛的多代理泛化研究取得额外进展，并且成为一个有用的基准。

Jun, 2024

语言引导的世界模型：一种基于模型的人工智能控制方法

安装概率世界模型到人工智能代理中，为人类与控制这些代理打开了一个高效的交流途径；我们开发了一种名为语言引导的世界模型（LWMs），通过阅读语言描述来捕捉环境动态，提高了代理的通信效率，同时允许人类用简洁的语言反馈在多个任务中同时改变行为。该研究证明了当前最先进的 Transformer 架构在该基准测试上表现不佳，激励我们设计更强大的架构。通过模拟展示了我们提出的 LWMs 的实用性，使代理能够在执行前生成和讨论计划，增强了代理的可解释性和安全性，并使其在真实环境中的性能提高了三倍，而无需在该环境中进行任何交互式经验的收集。

Jan, 2024