BriefGPT.xyz
Ask
alpha
关键词
multichannel audio
搜索结果 - 4
视频中音频 - 视觉讲话者定位对空间音效重现的应用
通过使用多通道音频和视觉模式,本研究比较了传统的音频 - 视觉方法和单声道音频的活跃说话者检测方法,在位置元数据提取和空间准确性上取得了显著改进。未来的研究将评估该模型在嘈杂和高混响环境中的稳健性,并解决离屏说话者的问题。
PDF
a month ago
利用视觉监督进行基于阵列的主动说话人检测和定位
通过用从多通道音频中提取的空间输入特征进行训练的简单音频卷积循环神经网络(CRNN),可以独立于视觉模态进行同时水平活动说话者检测和定位(ASDL),超越典型的音频 - 视觉方法的性能并产生竞争性结果的成本昂贵的传统监督式训练。
PDF
7 months ago
利用空间和谐特征在多通道音频中进行声音事件检测
本文提出使用空间和谐特征结合 LSTM 循环神经网络进行自动声音事件检测任务,并将其与现有的单声道方法进行比较,结果表明使用多声道音频、空间和谐特征的自动声音事件检测方法能够提高检测性能。
PDF
7 years ago
利用空间特征和卷积循环神经网络进行声音事件检测
本文提出使用从多通道音频中提取的低级空间特征进行声音事件检测,通过初始阶段从每个通道中单独学习这些多通道特征,扩展了卷积递归神经网络以处理更多类型的这些特征,并表明将特征呈现为体积的单独层,而不是将每个通道的特征串联成单个特征向量,可以更好
→
PDF
7 years ago
Prev
Next