- 超越言语 -- 为沟通生成整体性的三维人类二人运动
本文介绍了一个创新任务,重点关注人类沟通,旨在生成说话者和听众的三维整体人体动作。我们的方法的核心是将因子分解与文本语义信息相结合,从而更真实和协调地生成动作。我们分别训练 VQ-VAEs 来处理说话者和听众的整体动作,并考虑了说话者和听众 - 探索音乐的情绪轨迹:基于 Spotify 音乐数据的愉悦度趋势和音乐流派变化分析
通过使用 Spotify 音乐数据,包括通过 Spotipi API 提取的音频特征和愉悦度分数,对音乐情感和趋势进行了复杂的分析。研究采用回归建模、时间分析、情绪转换和流派调查,揭示了音乐与情感之间的模式。
- 利用大型语言模型进行端到端语音识别的语境化
通过引入一种新方法,结合大型语言模型(LLMs)来进行上下文化的语音识别模型,我们证明通过添加适配器的少量可训练参数,可以在保持相同的文本输入功能的同时,实现预训练 LLM 的上下文化语音识别能力并显著提高性能。
- AAAI装备声音事件检测与语言模型能力
通过语言模型结合音频特征和文本特征,本研究提出了一种高效的声音事件检测方法,实现了精准的声音事件分类和时序定位。与传统方法相比,该模型更简洁全面,直接利用语言模型的语义能力生成时序和事件序列,获得了准确的声音事件检测结果。
- VivesDebate-Speech: 一份口语论辩语料库,以利用音频特征进行论证挖掘
本文介绍了 VivesDebate-Speech 语料库,旨在利用音频特征进行论证挖掘任务,并提供了一系列独特实验结果,表明将音频特征整合到论证挖掘流程中可获得改进的性能,为未来研究提供了基准。
- 歌曲情感识别:音频特征与人工神经网络性能比较
通过提取音频特征使用数据驱动模型来识别毫无伴奏的歌曲中所表达的情感。
- MM探索传统机器学习技术用于病理听诊识别
利用机器学习辨别正常和异常肺部吸气声,采用窗口和特征聚合策略,使用数据进行建模并进行决策融合,得出平均 ROC 曲线下面积为 0.691 的监督模型。
- GENEA 挑战赛 2022 的 ReprGesture 参赛作品
本文介绍了 ReprGesture 的自动手势生成系统,该系统利用多模态表示学习生成包括语音节奏在内的合适的手势,并在 GENEA 挑战赛中取得了不错的成绩。
- 口语客服对话中用户请求和抱怨的预测
该研究通过使用 HealthCall 数据集,评估了自动预测用户请求类型和检测投诉等两项客户关系管理任务,并探索了 14 种特征集作为输入。结果显示,语言特征总是提供最佳结果,并且 Wav2Vec 2.0 特征似乎比 ComPaRe16 特 - 基于文本感知的端到端发音错误检测和诊断
本文设计了门控策略以及对比学习等方法,以便更好地利用先前给定的文本信息作为指导,有效地提高了自动语音纠音技术的性能。
- 分析音乐表演视频的深度神经网络方法
该论文介绍了一个自动化标注音乐表演视频中手势的框架,使用 3D 卷积神经网络,通过批处理平衡和空间 - 时间手势表示等方法,成功提高了 12% 的手势识别准确率,对跨多个视频的多个手势 / 类别进行了详细的研究,并探讨了使用音频特征的可能性 - ICML手工音频特征深度学习激活的案例研究
通过计算基于传统音频特征和卷积神经网络学到的表示之间的相似性,以及测量激活映射和音频特征之间的相似性,本研究旨在探索使用人工设计音频特征的方法来提高卷积神经网络的可解释性,以实现从用户生成的音乐录音中识别乐器的目标。
- MM自动识别非母语英语口音中文论文题目中的文本和语音特征的相关性
本文通过简单音频和 n-gram 特征,达到了近 90% 的准确识别率,无论问题变化多少,音频特征都不受影响,经验证明这种方法可适用于任何语言的口音识别系统的开发和应用。
- 多模态情感分析基准测试
本研究通过卷积神经网络从文本、视觉等多个角度提取特征,实现了情感分析和情绪识别,并取得了 10% 的性能提升。同时,我们还探讨了在多模态情感分析研究中经常被忽视的若干重要问题,如讲话者无关模型和模态重要性等,从而为今后的研究提出了新的基准, - AENet: 学习视频分析的深度音频特征
提出了一种新的深度网络用于音频事件识别,名为 AENet,该网络采用卷积神经网络以在时间维度上对音频事件进行长时间频率结构的建模来训练端到端的音频事件检测系统,在事件识别、动作识别和视频亮点检测等视听任务中,结合 AENet 特征和视觉特征