Sora 以惊人的几何一致性生成视频
通过实验分析外观、运动和几何等方面,在外观、运动和几何等方面对比了真实世界的视频和由先进 AI 模型生成的视频,揭示了真实世界视频与合成视频之间的差距,并提出了集成外观、光流和深度信息的专家集合模型以进行假视频检测,提高了鲁棒性和泛化能力。
Jun, 2024
This paper provides a comprehensive review of the Sora text-to-video generative AI model, including its background, applications, challenges, and future directions.
Feb, 2024
文本到视频生成技术的进展与 Sora 模型的发展路径和应用,以及技术挑战与未来改进方向进行全面探讨,旨在促进文本到视频生成领域的创新与讨论。
Mar, 2024
通过综述世界模型的最新进展,该研究探讨了世界模型在视频生成、自动驾驶以及部署在自主代理人中的关键作用,并讨论了其挑战、限制和未来发展方向。
May, 2024
该论文介绍了一个名为 Sora 的大规模通用视频生成模型,随后提出了一个新的多智能体框架 Mora,通过多个视觉 AI 代理来复制 Sora 展示的通用视频生成能力,成功模拟了 Sora 在各种任务中的视频生成能力,并希望通过合作的 AI 代理引导未来的视频生成方向。
Mar, 2024
通过对 Sora 进行文本到视频生成的拆解以及文献综述,我们从不同角度对其进行了全面回顾,总结了人工智能和人工一般智能的发展现状,介绍了常用的数据集和评估指标,并提出了该领域的挑战和未来研究方向。
May, 2024
通过创建一个基准测试集 VideoPhy,我们评估了现有的文本到视频生成模型是否能符合真实世界活动的物理常识,结果显示这些模型缺乏生成符合文字提示和物理规律视频的能力,从而揭示了视频生成模型远未准确模拟物理世界的程度。
Jun, 2024
本文提出了一种基于 GeoSim 的几何感知图像合成过程,通过从其他场景中提取的动态对象进行图像合成从而合成新的城市驾驶场景,该方法能够生成真实的、交通意识的、几何一致的合成图像,适用于复杂的场景规模,并演示了其在长程实际视频模拟和合成数据增强等领域的有用性。
Jan, 2021
本研究提出通过使用逆向渲染和可微分仿真相结合的方法,从深度或 RGB 视频中创建真实世界关节机构的数字孪生,该方法可以自动发现关节类型和估计其运动学参数,并调整整个机构的动态特性以实现物理上准确的仿真。
Mar, 2022
通过定性社交媒体分析人们对 Sora OpenAI 模型的感知影响和关注进行研究,发现人们最关注 Sora 对内容创作相关产业的影响以及监管方面的挑战,包括 AI 生成内容的真实性与虚假性、人类自主权、数据隐私、版权问题和环境影响等。为了在 Sora 公开发布之前进行调节,我们提出了政策建议,包括 AI 内容标注的法律限制和公众 AI 素养教育。
Apr, 2024