本研究提出了一种名为 MultiPA 的多任务发音评估模型,它相较于基于 Kaldi 的系统有更简单的格式要求以及与其他神经网络模型更好的兼容性,其实验结果表明在闭合反馈场景下 MultiPA 能够达到可比较的性能,同时在直接用于开放式反馈时保持更加稳健的表现。
Aug, 2023
提出了一项新的任务 —— 自动理解口语内容,本文通过构造多层注意力机制的分层注意力模型(HAM)来提高自动理解口语内容任务的表现,并且通过考虑树状结构而不是顺序结构的表示方法,使得模型对 ASR 错误更加鲁棒。
Aug, 2016
本文提出了一种名为 MPA 的简单而有效的方法,通过采用掩码预测策略,支持端到端的训练过程,可在不使用任何对齐组件的情况下进行发音评估并在很大程度上解决误对齐问题。
Jun, 2023
提出基于 HuBERT 的零样本自动发音评估方法,使用遮罩模块破坏语音输入获取令牌序列并使用得分模块测量错误恢复的令牌数量,在 speechocean762 上得到了可比较于监督回归基线且优于非回归基线的表现,同时分析了遮罩策略对自动发音评估性能的影响。
May, 2023
发音评估和其在计算机辅助发音训练(CAPT)中的应用近年来取得了令人瞩目的进展。本文回顾了发音评估方法在音位和韵律方面的应用,分类了主要的研究趋势中观察到的挑战,并强调了现有的限制和可用资源。接着讨论了剩余的挑战和未来工作的可能方向。
Oct, 2023
本文提出了一种层次交互网络(HI-ASA)来建模任务间的双向交互,利用交叉针织机制选择性地组合不同的任务特定特征,以确保适当的双向交互,然后应用相互信息技术在输出层互相约束学习,从而使方面输入和情感输入能够通过反向传播编码另一个任务的特征。
Aug, 2022
本文提出了一种新型的失误函数 —— 得分平衡损失函数,侧重于解决自动发音评估中存在的数据分布不均问题,通过引入重新加权方法,使模型收到最小类的预测分数较高的成本支出,从而提升模型在少量分数预测问题上的性能。在 speechocean762 数据集上验证了本方法的有效性。
本文提出了两种声学特征混合策略,线性和非线性插值与批次平均特征相结合,以解决非母语学习者语音数据稀缺和得分标签不平衡的问题。通过将发音准确性作为声学特征,我们改进了设计以适应发音评估,同时结合细粒度的错误率特征,通过将语音识别结果与原始答案音素进行比较,直接提供发音错误的提示。声学特征的有效混合显著提高了 speechocean762 数据集上的整体评分性能,详细分析突显了我们预测未见扭曲的潜力。
Jun, 2024
本文研究了从多个数据来源中学习识别和解释人类情感和主观信息的多模态情感计算问题,提出了一种基于 attention 机制和单词级融合的分层多模态体系结构,以从文本和音频数据中分类识别发言级别的情感和情绪。结果表明,该模型在现有数据集上表现优异。
May, 2018
本文主要介绍了针对 3D 点云的视觉定位问题,提出了基于 Transformer 和 Hierarchical Attention Model 的端到端模型,通过对三个基本问题的解决来提高模型性能,实验结果表明 HAM 模型能够在多模态视觉输入下取得领先的结果。
Oct, 2022