声学特征融合用于平衡多方面发音评估

Jun, 2024

声学特征融合用于平衡多方面发音评估

Acoustic Feature Mixup for Balanced Multi-aspect Pronunciation Assessment

Heejin Do, Wonjun Lee, Gary Geunbae Lee

TL;DR本文提出了两种声学特征混合策略，线性和非线性插值与批次平均特征相结合，以解决非母语学习者语音数据稀缺和得分标签不平衡的问题。通过将发音准确性作为声学特征，我们改进了设计以适应发音评估，同时结合细粒度的错误率特征，通过将语音识别结果与原始答案音素进行比较，直接提供发音错误的提示。声学特征的有效混合显著提高了 speechocean762 数据集上的整体评分性能，详细分析突显了我们预测未见扭曲的潜力。

Abstract

In automated pronunciation assessment, recent emphasis progressively lies on evaluating multiple aspects to provide enriched feedback. However, acquiring multi-aspect-score labeled data for non-native language learners' speech poses challenges; moreover, it often leads to score-imbalan

automated pronunciation assessment acoustic feature mixup score-label imbalances goodness-of-pronunciation error-rate features

发现论文，激发创造

多维度发音评估的均衡得分损失

本文提出了一种新型的失误函数 —— 得分平衡损失函数，侧重于解决自动发音评估中存在的数据分布不均问题，通过引入重新加权方法，使模型收到最小类的预测分数较高的成本支出，从而提升模型在少量分数预测问题上的性能。在 speechocean762 数据集上验证了本方法的有效性。

May, 2023

混合样本对特征学习的益处

本文研究数据增强方法 Mixup 的原理，从特征学习的角度解释了 Mixup 方法的优越性，并提出在早期训练阶段应用早停止技术以提高训练效果。

Mar, 2023

自动歌词与音频对齐的声学建模

该研究提出使用额外的语音和音乐相关特征，通过对大量独唱人声进行训练的声学模型来适应少量领域数据中的复调音乐，并利用常规声学特征一起实现鲁棒性，该策略在词汇边界对准错误的显著降低中取得了成效，特别是在具有长时间音乐插曲的复调数据上。

Jun, 2019

利用跨领域声 — 口倒置特征进行非正常言语识别

该论文提出了一种跨领域的声学 - 发音反演方法，使用神经网络对发音特征进行建模，通过应用该方法改善了语音障碍患者的语音识别表现。

Mar, 2022

使用 Map-Mix 提升口语识别性能

本文提出了一种名为 Map-Mix 的数据增广方法，用于提高低资源方言分类准确性，该方法通过数据点的模型训练动态来改进隐式 Mixup 的采样，相比于随机 Mixup 基线，Map-Mix 方法的加权 F1 得分提高了 2％，结果呈现出明显的良好校准模型。

Feb, 2023

PAAPLoss：一种用于语音增强的音韵对齐声学参数损失

通过基于声学 - 语言学领域的前沿知识，使用神经网络估计器以及音素特定权重等手段，将语音增强模型优化为更接近于真实干净语音的声学参数值，实验结果证明此方法在时间域和时频域均可提升语音增强模型的评估指标，并提供了不同音素间声学参数改善情况的分析。

Feb, 2023

混合变音多标签分类稀有无尾两栖动物声音

通过引入 Mixture of Mixups（Mix2）框架，利用混合正则化方法 Mixup、Manifold Mixup 和 MultiMix，本文针对多标签不平衡分类的挑战，特别关注在包含类别不平衡和多标签示例的 AnuraSet 数据集中对无尾两栖物种声音进行分类。实验结果表明，这些方法单独使用可能导致次优结果，但在每次训练迭代中随机选择一个方法应用时，它们证明在解决上述挑战方面非常有效，特别适用于少数出现的稀有类别。进一步分析显示，Mix2 还能高效分类在不同类别共现水平的声音。

Mar, 2024

多方面关注的层次发音评估

本研究提出了一种基于多方面注意力和分层表示的自动发音评估模型（ HiPAMA ），可在不同层次（如音素、单词和句子）上评估发音的多个方面（如准确性、流利度和完整性），从而实现更全面的反馈评估

Nov, 2022

跨口音语音识别上的快速适应学习

研究了方言对同一语言单词发音的影响，提出了一种基于模型对抗元学习算法的跨方言英语语音识别任务，通过实验表明该方法显著优于联合训练。

Mar, 2020

MixSpeech: 低资源语音识别数据增强

本文提出了 MixSpeech，一种基于混合学习的自动语音识别数据增强方法，通过该方法可以有效地提高模型性能，实验结果表明该方法优于基准模型和其他流行的数据增强方法。

Feb, 2021