- 交易魔鬼:基于随机投资模型和贝叶斯方法的强韧后门攻击
通过操纵音频的风格属性来欺骗语音识别系统的策略性投资型后门攻击(MarketBack)被研究,实验结果表明,当污染少于 1%的训练数据时,MarketBack 在七个受害模型中可实现接近 100%的平均攻击成功率。
- 语音电子健康记录:引入多模态音频数据
通过使用移动 / 网络应用程序进行指导性问题,捕捉健康数据并形成音频电子健康记录(Voice EHR),可以利用大型 AI 模型对患者进行快速分类,提升医疗决策,并通过早期检测潜在地改善结果。该报告引入了全球工作的合作伙伴群体、数据收集所使 - 探索面向通用音频理解的联邦自监督学习
通过将联邦学习(FL)与自监督学习(SSL)相结合,可以在不损害用户数据隐私的情况下利用音频数据进行通用音频理解。本文评估了在大规模非独立同分布(non-iid)数据生成的情况下,将特征匹配和预测式音频自监督学习技术与 FL 相结合的性能, - 利用智能手表麦克风传感器进行咳嗽检测与分类
本研究探讨了使用内置麦克风传感器的智能手表来监测咳嗽并检测各种咳嗽类型的潜力。我们对 32 名参与者进行了一项研究,并以受控方式收集了 9 小时的音频数据。随后,我们使用结构化方法处理了这些数据,得到了 223 个阳性咳嗽样本。我们进一步通 - EMNLPHEAR: 面向视频对话的听觉增强音频响应
提出了 Hearing Enhanced Audio Response(HEAR)框架,用于解决视频对话系统(Video-grounded Dialogue)中的聋响应问题,通过选择性地关注音频来改善系统的听觉能力和准确性。
- 利用音频数据在初级保健中促进抑郁风险评估
通过使用音频数据预测抑郁风险,本研究旨在降低首要卫生保健中的抑郁症误诊并改善整体诊断和治疗结果。
- GRASS: 语音语义理解统一生成模型
该论文通过引入统一的端到端(E2E)框架,对语音语义理解任务进行了指令微调技术的探索,该框架在语音数据上生成与任务相关提示条件下的语义标签。实验证明,我们提出的模型在微调下游任务后显著优于最先进的模型,并且在零样本和少样本情况下取得了有竞争 - 探测门猛烈关闭以监测家庭暴力早期迹象的可行性
使用低成本微控制器和 TinyML 技术,本研究创建了一个机器学习模型来检测家庭内部潜在的早期反社会行为预警。该模型使用卷积神经网络分析音频数据来判断门是否被强行关闭,准确度为 88.89%。并成功将该模型部署到了一块 Arduino Na - CNSRC2022 的 SpeakIn 系统描述
在 CN-Celeb 讲者识别挑战赛中,我们使用 ResNet、RepVGG 和 TDNN 架构,采用全局统计汇聚结构和 MQMHA 汇聚结构对声学数据进行处理,并使用 AM-Softmax 算法对其进行分类,最终取得了 SV 任务无榜首、 - 野外说话人识别
本研究提出了一种用于在声音数据源中识别演讲者数量并确定属于每位演讲者的音频的流程,并引入了聚类纯度和聚类唯一性两个指标来评估其准确性。该方法可用于印欧语系语音识别的数据预处理。
- HUI-Audio-Corpus-German:高品质 TTS 数据集
通过神经网络的发展和训练,基于音频数据的 TTS 应用的数据集越来越多,但不同质量的声音、低采样率、缺乏文本规范化以及音频样本与对应转录句子的对齐不利于深度神经网络的表现,而语言资源的问题更为突出。我们输入 “HUI-Audio-Corpu - 引导式生成对抗神经网络用于表示学习和使用更少标注音频数据生成高保真音频
本论文提出了一种新的 GAN 框架,即指导生成神经网络(GGAN),旨在解决无监督表征学习模型在忽略后续使用情况时可能出现的泛化能力问题,在少量标记数据的指导下,GGAN 可以学习更好的表示。
- ICLR多任务学习和自监督实现高效的音频分类
本研究旨在通过使用多任务学习和自监督学习提高基于 WaveNet 的大型神经网络在音频数据上的标签效率,并证明在有限的标记训练数据场景下,同时训练其他自监督任务可以显著提高分类性能。
- 利用时间依赖性表征音频对抗样本
本文旨在探索利用时间依赖性对抗音频示例的潜力,结果表明利用时间依赖性可以抵御音频对抗示例并提高语音识别系统的鲁棒性。
- 使用卷积神经网络从弱标记音频进行知识转移,用于声音事件和场景
本研究提出了一种基于卷积神经网络的弱标记音频数据分类框架,可用于转移学习,并证明了该方法对于领域和任务适应都具有有效性,此外还展示了该方法有助于捕捉语义含义和关系。