BriefGPT.xyz
Ask
alpha
关键词
audio retrieval
搜索结果 - 4
T-CLAP:时间增强对比语言 - 音频预训练
使用大型语言模型和混淆策略生成音频剪辑的时序对比性描述,并设计新的时序对比损失函数来改进对比性语音 - 文本预训练模型 (T-CLAP),结果在多个下游任务中显示出更强的捕捉音频事件时序关系的能力并显著超越了最先进的模型。
PDF
2 months ago
MM
MobileVidFactory:基于文本的自动扩散社交媒体视频生成移动设备
MobileVidFactory 是一个系统,用于自动生成垂直移动视频,用户只需提供简单的文本,通过利用预训练的图像扩散模型和音频检索来生成高质量、个性化的移动视频。
PDF
a year ago
MovieFactory: 利用大型语言和图像生成模型从文本自动生成电影
本篇论文介绍了 MovieFactory 框架,用于根据自然语言需求生成影视作品,其中自动化电影生成模型、自然语言处理方法、文本到图像模型、音频检索等方法都有所涉及。
PDF
a year ago
使用自然语言查询的音频检索
本研究介绍了新的基准,使用自由形式的自然语言查询中的文本注释,旨在研究文本查询的语音检索问题,同时探讨跨模态音频检索的优势和基准,以及优化方法。
PDF
3 years ago
Prev
Next