使用深度神经网络(DNN)的听觉和语义同步关系
本研究通过使用共享词汇,介绍了一种实现基于 GPT-2 的端到端对话系统中对话对齐的方法,包括训练实例加权、对齐特定损失和附加调节等技术,通过在 MultiWOZ 数据集上比较不同的对齐技术,我们证明这三种方法都比基准产生出更好对齐的结果,并得到了自动化和人工评估指标的确认。
Nov, 2023
本研究探讨了深度神经网络在处理时间依赖性信号方面的表现,结果显示语音模型会丢弃特定说话人的噪声信号,而保留与任务相关的语音和音素信息,并在后续层级中出现更高层次的概念表示,此外还展示了深度学习在不同时刻从输入中提取任务相关特征,以实现不变语音识别的能力。
Mar, 2020
通过提出一个新的数据集和一种测量方法,该论文探讨了当前的回复生成模型如何不充分地解决话语对齐(Lexical Entrainment)这一重要的类人现象,并提出了两个新的任务和两种基线方法来在会话系统中明确地整合话语对齐。
Oct, 2023
这项研究探讨了第二语言(L2)英语演讲模仿中 F0 演化的问题,在交替阅读任务(ART)中。结果表明,L2 英语熟练程度与演化之间存在微妙的关系:熟练程度较高的演讲者在音高变化和下降方面通常表现出较少的演化。然而,在一对一的情况下,熟练程度较高的演讲者表现出更强的模仿音高范围的能力,导致进一步的演化。这表明熟练程度在个体和对位级别上对演化产生不同的影响,突出了语言技能和韵律的复杂相互作用。
Apr, 2024
本文研究了预训练的深度学习模型在跨模态(文字到音频)检索中的应用,使用浅层神经网络将提取的嵌入映射到公共维度,并探究优化模型的先前培训方法和损失函数选择的重要性。
Oct, 2022
研究使用自我监督的神经模型从语音中提取声学嵌入,计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异,并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。
Nov, 2020
该研究探讨了在代码切换的语境中,对话者之间是否存在与在单一语言语境中相似的协调现象,并发现积极回答了这一问题,这对通用性的协调现象作为一种交流现象以及包容性和交互式语音技术的潜在应用产生重要影响。
Nov, 2023