WorldGPT: 一个受 Sora 启发的视频 AI 代理,将文本和图像输入作为丰富的世界模型
文本到视频生成技术的进展与 Sora 模型的发展路径和应用,以及技术挑战与未来改进方向进行全面探讨,旨在促进文本到视频生成领域的创新与讨论。
Mar, 2024
This paper provides a comprehensive review of the Sora text-to-video generative AI model, including its background, applications, challenges, and future directions.
Feb, 2024
该论文介绍了一个名为 Sora 的大规模通用视频生成模型,随后提出了一个新的多智能体框架 Mora,通过多个视觉 AI 代理来复制 Sora 展示的通用视频生成能力,成功模拟了 Sora 在各种任务中的视频生成能力,并希望通过合作的 AI 代理引导未来的视频生成方向。
Mar, 2024
通过引入 Interactive VideoGPT (iVideoGPT) 框架,可以在实现世界决策过程中,使模型交互地探索、推理和规划。 iVideoGPT 通过将多模态信号(视觉观察,行为和奖励)整合成一系列令牌,实现了通过下一个令牌预测的交互式体验,其中包括一种高效离散化高维视觉观察的新型压缩词汇化技术。借助其可扩展的架构,我们能够在数百万人类和机器人操作轨迹上进行预训练,建立起适用于各种下游任务的多功能基础,其中包括动作条件的视频预测,可视化规划和基于模型的强化学习,并且在与最先进方法相比,iVideoGPT 实现了竞争性的性能。我们的工作推进了交互式通用世界模型的发展,弥合了生成式视频模型和实际模型导向强化学习应用之间的差距。
May, 2024
通过引入 Pandora,这篇论文通过大规模预训练和指导调节实现了领域通用性、视频一致性和可控性,从而在生成视频、允许实时控制和需要仅轻量级微调的模式下迈向建立更强大的通用世界模型。
Jun, 2024
通过对 Sora 进行文本到视频生成的拆解以及文献综述,我们从不同角度对其进行了全面回顾,总结了人工智能和人工一般智能的发展现状,介绍了常用的数据集和评估指标,并提出了该领域的挑战和未来研究方向。
May, 2024
通过大型语言模型驱动的 DoraemonGPT 系统,我们能够处理动态视频任务,利用空间 - 时间查询和推理工具进行简洁而相关的中间结果,同时通过蒙特卡洛树搜索驱动的规划器高效探索大规模计划空间,并以多种解决方案总结出改进的最终答案。在各种复杂问题的评估中,DoraemonGPT 展示了比以往研究更强大的能力。
Jan, 2024
构建于多模式大型语言模型(MLLM)之上的通用世界模型 WorldGPT,通过分析各领域的数百万个视频,使其理解世界动态。为了进一步增强 WorldGPT 在专门场景和长期任务中的能力,我们还将其与一种结合了内存卸载、知识检索和上下文反思的新型认知架构进行了集成。通过在涵盖各种现实情境的多模式状态转换预测基准 WorldNet 上进行评估,直接展示了 WorldGPT 准确建模状态转换模式的能力,确认其在理解和预测复杂情境动态方面的有效性。我们进一步探索了 WorldGPT 作为世界模拟器的潜力,通过高效合成多模式指令实例,帮助多模式代理在不熟悉的领域进行泛化,被证明与真实数据一样可靠用于微调目的。项目可在 https://github.com/DCDmllm/WorldGPT 找到。
Apr, 2024
介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型,用于理解和生成关于视频的人类对话,并介绍了使用手动和半自动管道获得的新数据集,可用于训练和评估基于视频的对话模型,并在定量评估框架下分析了该模型的优劣。
Jun, 2023