- 使用语音基础模型和大型语言模型的语音翻译:现有的和遗漏的是什么?
基于已发表论文的研究,本文提出了对迄今为止呈现的架构解决方案和训练策略进行统一观点的基础,并强调它们之间的相似性和差异性,展示了不同的设置和评估方法如何阻碍了每个架构构建块和训练选择的最佳性能解决方案的识别,最后,我们概述了针对该主题的未来 - ACL级联和直接语音到文本翻译中的韵律学:以韩语 Wh 短语为例的案例研究
直接语音到文本翻译系统可以有效利用韵律,具有比级联翻译模型更高的准确性和意图分类效果。
- 高效的单调多头注意力机制
我们介绍了 Efficient Monotonic Multihead Attention(EMMA),一种具有数值稳定性和无偏单调对齐估计的先进的同时翻译模型。另外,我们提出了改进的训练和推理策略,包括通过离线翻译模型进行同时微调和减少单 - 端到端语音到文本翻译:综述
语音到文本翻译中的端到端模型的综述,包括模型、评估指标和数据集,提供了挑战和未来研究方向的新见解。
- EMNLP端到端单通道说话者转换感知的会话语音翻译
本研究致力于解决单声道多说话者对话转写和翻译问题,提出了一种名为 Speaker-Turn Aware Conversational Speech Translation 的端到端多任务训练模型,通过在序列化标注格式中使用特殊标记来结合自动 - SpeechAlign:语音翻译对齐评估框架
SpeechAlign 是一个框架,用于评估语音模型中源 - 目标对齐领域的尚未充分探索的领域,并提供了两个新的度量标准来评估语音模型的对齐质量,通过发布 SpeechAlign 来为模型评估提供一个可访问的评估框架,并用它来评估开源的语音 - IJCAI直接语音转文本翻译的最新进展
本文综述了直接语音翻译的当前技术状况,将现有研究工作分为三个方向:建模负担,数据稀缺和应用问题,并提出了未来工作的一些有前途的方向。
- ComSL:面向端到端语音转文本的复合语音语言模型
通过 ComSL 模型的建立,我们将跨模态学习和迁移学习相结合,在多任务学习的框架下进行,有效地实现了端到端的语音转文本翻译任务。在 21 种语言的 CoVoST2 公共数据集的评估中,我们的方法在多语言语音到英文文本翻译任务中实现了新的最 - ACLDUB: 语音翻译中的离散单元反向翻译
本文提出了离散单元反向翻译(DUB)模型,用于探究语音到文本翻译(ST)中:(1)使用离散单元还是连续特征表征语音更有优势;(2)对 ST 使用有用的机器翻译技术的好处有多大。DUB 成功地将反向翻译技术应用于 ST,平均提高了 MuST- - ACL无需文本的语音转文本反向翻译
采用自监督离散单元并将目标语言数据转化为人工翻译的语言模拟数据的 back translation for speech-to-text translation(BT4ST)方法,可有效解决资源不足情境下进行端到端语音转文本翻译的问题。
- MuAViC: 一个用于稳健语音识别和文本翻译的多语言音视频语料库
MuAViC 是首个开放的多语言视听数据集,共提供了 1200 小时覆盖 9 种语言的视听数据,可应用于嘈杂环境下的语音识别和翻译模型构建。
- 语音翻译的预训练:CTC 应用最优输运
本文提出了一种通过前置训练解决语音到文本模式间隔问题的方法,其中使用连接主义时间分类损失和最优传输相结合的前置训练,该方法在标准的 CoVoST-2 和 MuST-C 数据集上实现了最新的性能,并与最近的强多任务学习系统表现相当。
- 直接言語翻譯中的命名實體檢測與注入
本文探讨了如何利用在特定环境下出现的命名实体词典来提高语音转文本模型的准确性, 实验证明使用 NE 词典可以有效提高命名实体的准确性,降低人名错误率达 31%。
- ACL跨模态对比学习用于语音翻译
本文提出了一种名为 ConST 的跨模态对比学习方法,用于端到端的语音到文本翻译,并在流行基准数据集 MuST-C 上对其进行了评估和比较。实验结果表明,相比之前的方法,该方法在不同模态语音 - 文本之间实现了更高的精确度和平均 BLEU - ACLSTEMM:基于语音文本流形混合的自学习语音翻译
本研究提出了一种名为 STEMM 的方法来解决语音 - 文本翻译时,因跨模态表示不匹配导致数据标注不足的问题。该方法通过混合不同模态的表示序列,利用自学习框架来规范预测输出,能够有效地减轻跨模态表示不匹配并在 8 个翻译方向上达到了显著提高 - 决策注意力正则化以提升同声传译系统
使用文本转录来改善同声传译系统的决策策略:引入决策主动规范化 (DAR) 方法和 SimulMT 技术,成功提高了 MuST-C 英德 SimulST 任务的性能,获得了 34.66%/4.5 BLEU 的改善。
- AAAI语音到文本翻译的连续解码
COSTT 是一种整体方法,可以将语音转文本的源转录文本和目标的翻译文本生成在单个解码器中,从而实现语音翻译的模型训练以充分利用大量的平行文本语料库。实验证明,该方法在三个主流数据集上表现优于或不逊于之前的最新方法。
- AAAI交互解码同步语音识别与语音文本翻译
本文提出了一种新的交互式注意机制,使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行,实验表明,该模型在语音翻译和语音识别方面的性能表现均优于基线模型。
- 无监督语音文本翻译
本文提出了一种基于单语音频和文本语料库的语音翻译系统框架,使用交叉模态双语词典将每个源语音片段对应到目标文本翻译,通过使用语言模型和序列去噪自编码器,对每个音频片段进行逐字翻译来提高翻译质量,实验结果表明,我们的无监督系统尽管没有监督,但达 - NIPS语音和文本嵌入空间的无监督交叉模态对齐
该研究提出了一种无监督的跨模态对齐框架,通过对抗训练和优化过程来实现语音和文本的嵌入空间对齐,从而帮助开发对低资源语言进行语音识别和语音到文本翻译的自动化系统,并且在分类和翻译任务上的表现与监督的方法相媲美。