MAD Speech:语音声音多样性的度量
该论文提出了 MAD 基准测试,通过爬取和对齐可用的主流电影音频描述,包含超过 384,000 个自然语言句子,展示出视频语言基础数据集中存在的偏差的显着减少,使短暂的时间点可以准确地与长达三个小时的视频相匹配。
Dec, 2021
本研究通过 wav2vec 2.0 模型中提取的嵌入来区分多达 100 种荷兰四种方言的发音差异,结果表明,基于声学模型的方法优于基于电话转录的方法,且 XLSR-53 模型在荷兰方言的微调后表现最佳,仅仅利用六秒的语音,即可得到与实际情况吻合的聚类。
May, 2022
本文提出了一种通过建立多样性度量指标及其多样性参数之间关系的系统来评估自然语言生成(NLG)系统多样性的方法,并通过对人类和自动度量,解码参数调整等方面的实验展示了这个框架的实用性。
Apr, 2020
使用自动语音识别和自然语言处理方法进行指辞文本检测,提出了一种说明性多语种骂人检测音频数据集(ADIMA),该数据集取样 10 个印度语言,包含 11,775 个音频样本,旨在实现 Indic 语言中音频内容审核的民主化。
Feb, 2022
当训练数据集由 1:1 的狗和猫比例组成时,生成模型会更好地符合训练种群分布,而不是由 3:1 的狗和猫比例组成的其他模型。我们提出了一个新的评估协议来衡量生成的图像集与训练集在属性强度分布方面的差异。我们的指标为生成模型的评估奠定了基础。
Oct, 2023
通过发布离散音频和语音基准 (DASB),我们研究了离散音频标记符在各种任务中的性能表现,并发现语义标记比压缩标记在大多数任务中表现更好,但语义标记和标准连续表示之间的性能差距仍然存在。
Jun, 2024
本文提出了一种多模态方法(MADA),以从社交媒体上的多语言对话音频中检测滥用内容为目标,并证明利用其他模态的判别信息对音频建模可以极大地提高性能。实验证明,MADA 可以在 ADIMA 数据集上取得比仅使用音频的方法更好的表现,并且在测试了 10 种不同语言后,在多模态结合的情况下可以获得 0.6%-5.2% 的一致增益。 此外,我们还做了实验证明了潜在情绪和虐待行为之间存在强烈的相关性。
Apr, 2022
本文提出了两种声学特征混合策略,线性和非线性插值与批次平均特征相结合,以解决非母语学习者语音数据稀缺和得分标签不平衡的问题。通过将发音准确性作为声学特征,我们改进了设计以适应发音评估,同时结合细粒度的错误率特征,通过将语音识别结果与原始答案音素进行比较,直接提供发音错误的提示。声学特征的有效混合显著提高了 speechocean762 数据集上的整体评分性能,详细分析突显了我们预测未见扭曲的潜力。
Jun, 2024
本文章提出一种同时评估生成文本方法质量和多样性的度量标准,通过逼近学习生成模型和真实数据分布的距离,并介绍了基于 n-gram 和 BERT 特征的度量方法,并且在 Oracle 训练模式下使用相应显式分布之间的距离。最后,使用现有和提出的度量标准对最流行和最新的文本生成模型进行评估,确定提出度量标准的优势。
Apr, 2019