BriefGPT.xyz
Ask
alpha
关键词
speech modality
搜索结果 - 4
针对大型多模型中的语音特定风险进行探究:一种分类、基准和洞见
在多模态设置中,特别是在语音模态中,检测高风险互动的挑战仍然未被广泛探索,本文提出了一个语音特定的风险分类方法,并创建了一个小规模数据集来评估当前大型多模态模型在检测这些风险类别方面的能力。
PDF
11 days ago
利用大型语言模型进行端到端的中文 ASR 和 NER
通过将语音记号映射到与文本记号相同的特征空间,将语音模态整合到解码器型大型语言模型 (LLM) 中成为范式。本研究通过中文自动语音识别 (ASR) 和命名实体识别 (NER) 任务对 Whisper 编码器和 ChatGLM3 进行深入比较
→
PDF
6 months ago
COSMIC: 高效数据指令调整的语音上下文学习
我们提出一种数据和成本高效的方式,将语音模态融入到大型语言模型中,这种多模态语言模型被称为 COSMIC,具备指令跟随和上下文学习的能力。通过使用 GPT-3.5 生成基于语音转录的语音理解测试问答对作为指令调整的一部分,COSMIC 在少
→
PDF
8 months ago
CVPR
多模态密集视频字幕
本文提出了一种新的密集视频字幕方法,它能够利用任何数量的多模态信息来描述事件,并使用自动语音识别系统获得音频和语音模态的文本描述,在将其视为单独的输入与视频帧和相应的音轨一起使用,并利用最近提出的 Transformer 体系结构将多模态输
→
PDF
4 years ago
Prev
Next