BriefGPT.xyz
Ask
alpha
关键词
acoustic cues
搜索结果 - 5
用语义量化和分解重新思考视听分割
基于产品量化的方法可以将多源音频语义分解为多个量化的单源音频语义,通过将稳定的全局特征知识提炼到局部特征上来处理音频语义的频繁转变,并在音频视觉分割方面显著提高性能。
PDF
9 months ago
基于 ASR 转录的倾听者感知反馈预测器
该论文探讨了对话中后接点的建模方法,并提出了一个主动式听众系统,旨在通过插入连续器和评估等后接点来影响发言人,实验结果表明声学线索比词汇线索更重要,以及将听众嵌入与音频特征相结合效果最佳。
PDF
a year ago
一种新的多模态动态融合网络用于口语话语中的干扰检测
本研究提出了一种基于早期融合和自注意力的多模态交互的新颖多模态体系结构,通过使用文本和声学模态之间的多模态动态融合网络,在个体话语中进行语调检测,结果表明在英语 Switchboard 上,我们的模型实现了最先进的效果,并且在文献中优于以前
→
PDF
2 years ago
语义音视频导航
介绍了语义音频可视化导航的概念,提出了基于 Transformer 的模型用于处理语义 AudioGoal 任务,拥有持久的多模态记忆,通过学习语义、声音和视觉提示的关联性,可实现在声音事件停止后,仍能到达目标的导航能力。
PDF
4 years ago
通过将检测演讲者意图作为次要任务来改善口语对话中的转折点检测
本文介绍了使用声学线索模型来理解对话者交替的研究,提出了一种多任务神经方法,同时预测转换转变和发言者意图,实验结果表明,使用发言者意图预测的辅助任务可以提高对话中转换转变的预测性能。
PDF
6 years ago
Prev
Next