探索 GLIDE 模型用于人类动作影响预测
GLASS 是一种用于全局和局部序列合成的生成模型,它能够在测试时间内使输入图像动画化,并通过递归神经网络来在视频帧之间进行过渡,透过全局和局部行动表示来学习分割前景 - 背景层和生成前景物体随时间移动的方法,并通过自编码器损失进行训练。我们还介绍了全新的合成数据集 W-Sprites,评估了我们的方法在 W-Sprites 和真实数据集上的性能,发现 GLASS 能够从单个输入图像生成逼真的视频序列,并成功地学习了比之前更高级的行动空间。
Apr, 2022
生成具有时间一致性和物理可行性的行为和物体状态转换的图像,利用视频数据集和条件扩散模型 GenHowTo,在各种对象和动作上展示出优秀的性能。
Dec, 2023
我们介绍了一种新的文本到动作视频编辑方法 ReimaginedAct,它可以预测视频中的人类动作变化,不仅可以接受直接指令文本提示,还可以通过假设性问题来预测可能的动作变化。该方法包括视频理解、推理和编辑模块,并引入了一个新的评估数据集 WhatifVideo-1.0,实验证明与现有视频编辑方法相比,我们的方法可以实现有效的动作编辑,甚至可以根据假设性问题进行虚构编辑。
Mar, 2024
本篇论文提出了一种行动预测模型,受人类神经结构的启发,在预测未来视觉和时间表现方面,能够预测合理的未来行动,并证明使用视觉和时间语义的场景表示结合递归生成对抗网络 (GAN) 框架可以实现未来表现的表示综合,该模型在多个数据集上优于当前最先进的方法。
Dec, 2019
本文提出了一种使用动态图像和定制损失函数的生成模型来预测人类行为的方法,该方法在三个基准测试中相较于现有的最佳方法增强了 4% 至 5.2% 的预测准确性。
Aug, 2018
本文报道了我们在长期行动预测方面使用图像 - 文本模型的调整。我们的视频 + CLIP 框架利用了大规模预先训练的成对图像 - 文本模型:CLIP 和视频编码器 Slowfast 网络。两个编码器得到的特征互补,因此在 Ego4D 上的长期行动预测任务中优于基线。我们的代码位于 github.com/srijandas07/clip_baseline_LTA_Ego4d。
Jul, 2022
本文提出了一种新的框架来使用人类反馈来改进指导性视觉编辑,通过学习奖励函数捕捉用户偏好并采用可扩展的扩散模型微调方法以处理数据限制带来的偏见,同时贡献了新的数据集以提升性能。实验证明该方法比之前的最先进的指导图像编辑方法更受欢迎。
Mar, 2023
本研究提出了一种基于 LSTM 网络的多模态框架,用于捕捉和模拟多标签的行动预测问题,并引入标签平滑的概念,以提高机器人技术在人机交互、辅助生活和自动驾驶等领域的预见性。
Apr, 2020
基于扩散模型的文字引导图像生成在开放领域图像处理任务中取得了令人惊讶的进展,本研究提出了一种混合专家控制器的方法,以将不同类型的人类指令与不同的扩散模型的文字引导能力相结合,实现对各种开放领域图像处理任务的处理。
Sep, 2023
该研究倡导将指令执行分解为目标预测和行为生成,并介绍了一种利用 LINGUNET 将观察值映射到目标,然后生成完成目标所需的行动的模型。该模型仅通过演示进行训练,并引入了两个指令跟随基准来评估该方法:LANI 和 CHAI。我们的评估证明了我们的模型分解的优势,并阐明了我们的新基准所提出的挑战。
Sep, 2018