- 文本到图像传播模型的版权保护数据集与基准
该研究提供了第一个大规模标准化的数据集和基准库,以及评估版权保护方法有效性的一套评估指标。
- $μ$-Net: 基于 ConvNext 的 U-Net 用于宇宙宇子断层扫描
通过开发一种新的双阶段深度学习算法,μ-Net,结合了 MLP 预测子中子轨迹和 ConvNeXt-based U-Net 将散射点转换为体素,实现了在 1024 个子中子剂量下达到 17.14 PSNR 的最新性能,超过传统的重建算法,如 - GAIA:零射击对话头像生成
GAIA 为无需 domain-specific 启发式方法的生成式虚拟形象的合成提供了一个通用解决方案,通过将每帧图像分解为运动和外观表示,并在语音和参考人像图像的条件下生成运动序列,实现了更自然、多样化、口型同步和视觉质量更高的结果,同 - HowToCaption: 规模化促使 LLMs 转化视频注释
利用大型语言模型从自动语音识别摘要中创建与视频对齐的细致视频描述,以达到大规模教学视频数据训练文本 - 视频模型的目的。这项工作应用于 HowTo100M 数据集的副标题,创建了一个新的大规模数据集 HowToCaption,其结果不仅显著 - 用于分类现实世界在线服务中的有偏见言论的大规模韩文文本数据集
我们引入了一个来自韩国著名 SNS 平台的全面、大规模数据集,该数据集提供了对文本样本的三种注释:(1)偏好,(2)亵渎,和(3)九种偏见类型,实现了用户生成文本的多任务学习的同时分类。通过利用最先进的基于 BERT 的语言模型,我们的方法 - 音频 - 语言表示学习的大规模数据集
我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程,并构建了一个大规模、高质量的音频语言数据集 Auto-ACD,其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务(包括音频语言检索、 - UniKG: 大规模知识图谱的基准和通用嵌入
通过构建大规模异构图数据集 UniKG 并采用语义对齐策略和异质图传播模块 (APM) 实现多属性实体的高效信息传播和多跳聚合,该方法在 UniKG 数据集上进行基于节点分类的评估,扩展了大规模均匀图研究方法在异构图上的应用。
- FreeMan:走向野外三维人体姿态估计的基准评测
通过使用多台智能手机捕捉来自不同角度的 40 个人在不同场景下的 11M 帧图像,我们构建了 FreeMan 这一大规模真实世界多视图数据集,以促进 3D 姿势估计的发展,并提供了全面的评估基线,凸显了 FreeMan 所带来的巨大挑战。
- 情感视觉对话:基于视觉对话的情绪推理的大规模基准测试
我们引入情感视觉对话,这是一个情感解释和推理任务,作为研究在视觉对话中理解情感形成的测试基准。该任务涉及三个技能:(1)基于对话的问答(2)基于对话的情感预测和(3)基于对话的情感解释生成。我们的主要贡献是收集了一个大规模的数据集,称为 A - 填补鸿沟:高质量动画中间绘制的细粒度到粗粒度的插值网络
通过多层次引导和深度学习方法,我们提出了一种新型的动画插画网络,名为 FC-SIN,用于快速生成流畅的 2D 动画插画。在大规模数据集 STD-12K 上的综合实验证明,我们的方法优于现有的插值方法,并且我们的代码和数据集将公开提供。
- DESOBAv2:基于大规模现实世界数据集的阴影生成
本文研究了图像合成中生成真实阴影以使合成图像更逼真的问题。作者通过使用物体阴影检测和修复技术创建了一个名为 DESOBAv2 的大规模数据集,其中包含了大量的室外场景图像和物体阴影对。在真实图像和去除阴影图像的基础上,可以构建合成图像和目标 - ICCV从 YouTube 视频中学习视觉与语言导航
通过利用大规模的房屋导览视频数据集,本文提出了一种视觉语言导航方法,使用自动构建的路径指令对训练的代理进行预训练,并利用视频中的布局信息来提高导航的泛化性能。通过实验结果表明,该方法在两个流行的基准测试(R2R 和 REVERIE)上取得了 - ICCV神经视频深度稳定器
本研究提出了一种名为神经视频深度稳定器的插拔式深度图像处理框架及其所需的大规模数据集 —— 野外视频深度数据集,该方法通过实现视频中深度的稳定,进一步提高了其精度和效率,具有较高的实际应用价值。
- CAD-Estate: RGB 视频中的大规模 CAD 模型标注
提出了一种半自动的方法来注释复杂多物体场景的视频,该方法使用来自数据库的 CAD 模型对每个物体进行注释,并使用 9-DoF 姿态变换将其放置在场景的 3D 坐标系中,从而构建了一个大规模的数据集 CAD-Estate,并用它进行了 Mas - ACLWSPAlign:基于大规模弱监督跨度预测的单词对齐预训练
WSPAlign 是一个有效的预训练单词对齐算法,可通过大规模的弱监督数据进行训练,无需手动数据标注,并实现了与当前方法竞争的结果,尤其对于低资源语言而言表现出潜在的实用性。
- PMC-VQA:基于视觉指导的医学视觉问答模型优化
本研究旨在通过提出一种基于生成的模型方法(与大型自然语言模型结合)来解决医学图像中的问题,通过建立大规模的医疗视觉问答数据集,即 PMC-VQA,该数据集包含 149k 张图片的 227k 个问答对,并进行预处理和微调以超越现有研究成果。
- 可扩展视频文本定位的遮罩标注
提出了一种基于可扩展的 SAMText 模型的可扩展的遮罩注释流程,用于视频文本定位,以解决现有数据集所具有的问题,并使用 SAMText 创建了一个包含 2400 个视频剪辑和超过 900 万个遮罩注释的大规模数据集,为该领域提供了新的研 - CHEAT:用于检测 ChatGPT 写作的大规模数据集
研究了 ChatGPT 对学术界原创性和严谨性的可能负面影响,并提出了一个大规模数据集以支持检测算法的开发。该数据集包含了 35,304 个合成摘要,同时对现有的文本合成检测算法进行了深入分析,表明 ChatGPT 合成的摘要是可以被检测出 - AirBirds: 一份真实世界机场鸟撞预防的大规模挑战数据集
本文介绍了一个大规模的数据集 AirBirds,其中包含了 118,312 个时间序列图像,覆盖了 409,967 个飞鸟的边框注释,是首个在真实机场环境中直接收集飞鸟的、用于研究和实践鸟击防护的大规模数据集。
- CVPR单张 2K 分辨率图像实现高保真 3D 人体数字化
提出了一种名为 2K2K 的简单而有效的 3D 人体数字化方法,该方法构建了一个大规模的 2K 人体数据集并从 2K 分辨率图像推断出 3D 人体模型,通过多个网络恢复了人体的全局形状和细节,并使用现有的网格生成器重构了完整的 3D 人体模