关键词large-scale benchmark dataset
搜索结果 - 4
- 随心所欲编辑:多粒度命令的视频描述编辑
本文提出了一个新的视频描述编辑任务(VDEdit),旨在通过灵活的用户需求自动修订现有的视频描述。为支持 VDEdit 任务,我们首先自动构建了一个大规模基准数据集 VATEX-EDIT,描述了不同的人类活动。考虑到现实生活中的应用场景,我 - CVPR学习个别讲话风格以实现准确的唇读语音合成
本文提出了一种基于说话者唇部运动的语音合成方法,通过收集唇部运动大规模数据集并针对唇读单个说话者在自然环境下的情况进行模型设计,该模型可以更准确、自然地模拟说话者的语音,其量化、定性评估结果表明,该方法比现有方法的可理解性提高了四倍。
- ICCVSPair-71k:用于语义对应的大规模基准测试数据集
该论文提出一种新的大规模基准数据集 SPair-71k 用于在计算机视觉领域解决语义对应问题,其中包含大量变化视角和尺度的图像,从而为解决语义对应问题提供了可靠的测试基础和促进此领域的进一步发展。
- 一种深度架构用于统一美学预测
本研究提出了一种预测图像美学得分分布的新型网络架构及其训练方法,该模型在使用单一模型仅进行分布预测任务的情况下,在标准的 AVA 大规模基准数据集上实现了美学质量分类、美学得分回归和美学得分分布预测三个任务的最新成果。同时,我们还介绍了一种