- CVPR音乐驱动的团体编舞
本文介绍了一个用于多人音乐驱动舞蹈生成的大规模数据集 AIOZ-GDANCE,并提出了一种新的方法来生成多人一致的舞蹈,同时还提出了新的评估度量标准来衡量生成的舞蹈质量。
- VideoXum: 视频的跨模态视觉和文本摘要
我们提出了一个新的联合视频和文本摘要任务,旨在生成一个缩短的视频剪辑和相应的文本摘要,我们通过构建一个大规模的人类注释数据集 - VideXum 来解决此问题,并使用新的度量标准 VT-CLIPScore 来评估跨模态摘要的语义一致性。我们 - MTTN: 多对多文本叙事用于提示生成
为了提高生成文本模型的效果,本研究创建了一个衍生且合成自真实提示的、与 Microsoft-COCO 和 Flickr 等流行图像 - 文本数据集索引的大规模数据集 MTTN,其包括超过 240 万个句子,分成 5 个阶段,共计超过 120 - EMNLPMUSIED:多源异构非正式文本事件检测基准
本研究基于用户评论、文本会话和电话会话等多种非正式、异构数据,提出了一个大规模的汉语事件检测数据集,并通过实验证明了非正式和异构数据的挑战性,为多源非正式事件检测提供了新的探索。
- DexGraspNet:基于仿真的通用物体大规模机器人熟练握取数据集
本文介绍了一个大规模机器人灵巧抓取数据集 DexGraspNet,由于我们提出的高效合成方法生成,可以普遍应用于任何灵巧的机械手。结果显示我们的数据集比以前的具有更多物体和抓取、更高的多样性和质量,并通过多个算法在本数据集上进行的训练,大幅 - 情感:学习真实世界视觉数据的情感解释
本文介绍一项研究,通过一个包含 85,007 张公开图片、526,749 个情感反应和自由文本解释的大规模数据集,探讨使用自然语言表达对给定视觉刺激的情感反应所引起的情绪反应。研究提出了三个问题来解决这个新任务,并介绍了一些方法和开源数据集 - COLING带有答案修正的对话式问答数据集生成
本论文介绍了一种利用输入段落生成大规模对话问答数据集的新型框架,该框架从段落中提取值得询问的短语,根据先前的对话生成相应的问题,并在生成问题后修订所提取的答案,从而显著提高合成数据的质量。实验结果表明,我们的简单答案修订方法可以带来显著的改 - ECCV在无标注三维环境中学习视觉语言导航
本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集,并通过预训练的语言模型对数据集进行微调,从而解决 VLN 方法中的数据稀缺性问题,从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVER - 一个高质量且大规模的英越语音翻译数据集
本研究介绍了一个高质量和大规模的英越语音翻译基准数据集,并使用强基线进行实证实验,发现传统的 “级联” 方法仍然优于现代的 “端到端” 方法,这是有关大规模英越语音翻译的第一项研究,我们的数据集和研究可用于未来研究和应用的起点。
- ECCVRealFlow: 基于 EM 的现实光流数据集从视频生成
本研究提出了一种基于 EM 算法的 RealFlow 框架,该框架可直接从未标记的实际视频中创建大规模的光流数据集,采用了 Realistic Image Pair Rendering(RIPR)模块来减轻图像合成的伪影,并利用生成的训练数 - Sensorium 竞赛:预测大规模小鼠初级视皮层活动
提出一种 Mouse neural system identification 的 benchmark competition,收集了一组大规模的数据集,基于预测性能对不同模型进行排名和评估。
- 符号表达式转换器:一种用于符号回归的计算机视觉方法
本研究提出了一种通过计算机视觉构建符号表达式变换器来解决基于样本的符号回归模型的通用性和效率受限的问题,并在一个不重复数据集上进行了测试。
- CVPR一个具有挑战性的动漫风格识别基准测试
本文提出了一个挑战性的动漫风格识别基准测试,并收集了一个大规模的动漫作品数据集进行评估,以验证风格学习而非特定角色学习的抽象画风识别模型。使用两种强大的人物重识别方法构建了基准性能,并发现 TransReID 在该数据集上的 mAP 仅为 - ACLSalesBot:从闲聊转向面向任务的对话
探索如何从社交对话到任务导向对话的平滑转换,为触发商业机会提供支持。提出了一个自动生成对话的框架,并在此基础上发布了一个大规模数据集,该数据集为未来的研究和商业活动提供了巨大的潜力。
- 大规模人工语焉不详生成
本文提出了用于在对话系统中检测语言不流畅的复杂和真实的人工生成方法 LARD,同时发布了一个包含不流畅性的大规模数据集,可以用于四种不同的任务,实验结果表明该方法生成的数据可有效用于检测和移除不流畅性语言。
- MMPTRACK: 大规模密集标注多摄像机多人跟踪基准测试
本研究提供了一个大规模数据集,利用自动注释系统从不同环境下的高度重叠 RGB 和深度相机生成三维跟踪结果,并通过手动检查和纠正三维跟踪结果来确保标签质量,以提高多相机,多物体跟踪系统的可靠性和性能。
- RedCaps:由民众创建、为民众服务的网络图像文本数据
通过 Reddit 收集了超过 1200 万个图像和文本对,构建了一个大规模的数据集,帮助机器学习模型学习生成富有多样性的图像描述并学习转换到许多下游任务,而无需使用复杂的筛选流程来保持数据质量。
- ICCV朝向真实世界的禁止物品检测:一项大规模 X 光线基准
使用计算机视觉技术进行自动安全检查是真实世界场景中的一项具有挑战性的任务,作者通过合成出一个大规模数据集 PIDray,采用选择性密集注意力网络 (SDANet) 进行目标检测,包括故意隐藏的物品,相比现有模型取得了更好的检测效果。
- ACLMTVR:视频中的多语言时刻检索
本文介绍了 mTVR,这是一个大规模的多语言视频瞬间检索数据集,包含来自 21.8K 个电视节目的 218K 英文和中文查询。同时,还介绍了 mXML 模型,通过编码器参数共享和语言邻域约束,学习和操作两种语言的数据。该模型在新收集的 MT - Shifts: 多个大规模任务中的真实分布转移数据集
本研究提出了 Shifts 数据集,用于评估不确定性预测和对分布偏移的鲁棒性,并提供了基线结果和任务描述。