BriefGPT.xyz
Ask
alpha
关键词
large-scale training data
搜索结果 - 4
CVPR
VidLA: 视频 - 语言对齐的大规模实现
我们提出了 VidLA,这是一种用于大规模视频 - 语言对齐的方法,通过在不同时间分辨率上使用一组数据令牌,以层次化的方式捕捉短程和长程的时间依赖关系,并通过简单的双塔架构,使用预训练的图像 - 文本基础模型来提高最终性能。此外,我们利用最
→
PDF
4 months ago
StyleGAN-T: 用于快速大规模文本到图像合成的 GAN 强化技术
该论文旨在使用生成对抗网络改进大规模文本到图像合成,提出了 StyleGAN-T 模型,它在大规模文本到图像合成中具有大容量、稳定的训练、强文本对齐和可控变化与文本对齐平衡等特点,并在样本质量和速度方面显著优于以前的生成对抗网络和蒸馏扩散模
→
PDF
a year ago
从图像说明中学习音视频模态
该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中,从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题,并创建了一个大规模音频 - 视频字幕数据集,使得使用这个数据集能够训练出性能优异的多模态转换模型,并在视频
→
PDF
2 years ago
ACL
TalkSumm: 基于学术会议演讲的科学论文摘要数据集和可扩展标注方法
本文提出了一种利用科学会议上的演讲视频自动生成科技论文摘要的新方法,通过收集 1716 篇论文及其对应的视频,并创建了一个摘要数据集,最终模型在该数据集上的表现与手动摘要数据集上的模型相当,并通过人工专家验证了自动生成摘要的质量。
PDF
5 years ago
Prev
Next