BriefGPT.xyz
Ask
alpha
关键词
multimodal-to-text generation
搜索结果 - 2
使用音频和文本共享的潜在表示进行高效音频字幕生成
通过提出预训练的 Transformer 架构、数据增强技术和参数高效的推理算法,研究针对自动音频字幕生成应用中存在的过度参数化、虚构现象和大内存占用的问题,通过语义对齐和类似度计算等方法,提升性能并减少模型复杂度。
PDF
10 months ago
视觉 - 语言基础模型的提示工程系统性调查
本文系统概述了在三种类型的视觉 - 语言模型上的提示工程的前沿研究,包括多模式到文本生成模型、图像 - 文本匹配模型和文本 - 图像生成模型,并总结和讨论了模型概要、提示方法、基于提示的应用以及相关的责任和完整性问题。此外,还讨论了在提示对
→
PDF
a year ago
Prev
Next