不要在语音到文本翻译中放弃固定窗口音频分割
提出一种基于滑动窗口的方法来翻译语音识别输出,实验结果表明比传统的 ASR 分段方法提高了 1.3-2.0 BLEU 分数,且减少了重新翻译的需要。
Oct, 2022
本研究提出了一种基于二分类模型的语音分割方法,并结合检测静音的 VAD 方法,该方法更适用于级联和端到端语音翻译系统,翻译性能也得到了进一步提升。
Mar, 2022
研究利用混合声学和语言信息的方法改善了自动语音识别中过分依赖声学特征而出现的分割问题,在基准测试中平均提高了 9.8%的分割 - F0.5 分数,该方法适用于多种语言,可显著提高机器翻译 BLEU 得分约 1.05 个点。
Oct, 2022
在语音领域中,基于注意力机制的序列到序列模型被用于解决诸如语音翻译或语音识别等任务中的词语分割问题。但本研究表明,仅依靠注意力机制是不稳健的,只有在训练数据包含话语标注的情况下才具有可用性。
Sep, 2021
通过将大型语言模型(LLM)用于将长 ASR 转录分割成可独立翻译的片段,以最大化整体翻译质量,采用有限状态约束进行解码以消除无效输出,通过提示调整或微调发现 LLM 可适应包含 ASR 错误的转录,与现有自动标点基线相比,我们最佳的 LLM 在 9 个测试集的英语 - 德语、英语 - 西班牙语和英语 - 阿拉伯语 TED 演讲翻译中将平均 BLEU 提高了 2.9 个点,仅通过改进分隔。
Oct, 2023
本文研究了文本切分在摘要提取中的作用,通过将摘要和切分同时进行学习,以及通过一种基于优化的正则化方法来提高模型的多样性,实现了既能在科学文章也能在口语记录中达到最优性能且具有更好的跨体裁可转移性的效果。
Oct, 2022
使用端到端的自动语音识别模型代替传统的语音活动检测器 (VAD),在处理长的音频片段时,不仅能够使用更好的声学特征进行分割决策,还可以使用文本解码得到的语义特征,从而有更好的性能表现。在 30 分钟内的真实世界音频实验中,相比于使用 VAD,我们展示了在最先进的 Conformer RNN-T 模型上 8.5% 的相对 WER 改进和 250 ms 的额外分割延迟减少。
Apr, 2022