本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器,成功地应用于流式同声传译任务,可以处理大量连续输入,相较于单向掩码 Transformer 模型,具有更好的延迟和质量平衡。
Oct, 2020
提出了可移位上下文(Shiftable Context)方案,旨在保持训练和推断环境中段和上下文大小的一致性,即使存在由于同时翻译的流媒体特性而导致部分填充的段。在 MUST-C 数据集的三种语言对中,模型的 BLEU 得分显著提高。
Jul, 2023
本研究提出基于块状,流式 Transformer 的方法,通过流式处理和块状并行检索,在同时进行自然语言理解和语音翻译等多个语音处理任务中,实现实时处理并取得与离线模型相当甚至更高的性能表现,并通过引入自动语音识别中间层损失约束和跨语言编码方法等方式进一步提高分类性能和模型表现。
Apr, 2022
本文提出一种帧级模型,采用高效增强记忆变压器块和动态延迟训练方法来提高流媒体自动语音识别的性能和降低计算复杂性,通过缓存机制并重复使用结合增强记忆库作为有限历史上下文的补充,以达到更好的性能。实验表明,该模型在 LibriSpeech 数据集上具有较高的性能。
Mar, 2022
该研究拓展了现有的同声翻译系统,提出一种基于流历史的流机器翻译方法,取得了较大的质量提升,并且表现优于现有同类最佳系统。
提出了 Speechformer 的架构,该架构通过减少注意层中的内存使用,避免了初始的失真压缩,并根据更具信息的语言标准仅在较高级别上聚合信息,该架构在三种语言对 (en->de/es/nl) 上的实验表明了其有效性。
Sep, 2021
本文提出一种新型的语音翻译范例,通过使用两个分离但同步的解码器,一个用于流式 ASR, 一个用于直接语音翻译,并通过 ASR 生成的中间结果指导直接语音翻译,实现了流畅度更高的翻译质量。
Jun, 2021
本文旨在研究如何利用视觉信息来弥补缺失的源文本背景,评估不同的多模态方法和视觉特征对最先进的同时机器翻译 (SiMT) 框架的影响。结果表明,视觉背景是有帮助的,基于明确的物体区域信息的可视化模型优于常用的全局特征,在低延迟情境下的表现可提高 3 个 BLEU 分数。我们的定性分析展示,只有多模态系统才能正常翻译英语到标记性别的语言,并处理英语和法语之间的形容词和名词词序等差异。
Sep, 2020
该研究介绍了一种有效的方法,用于将基于 Transformer 的大型语言模型扩展到无限长的输入,同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术,它将压缩性记忆融入到传统的注意力机制中,并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性,使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数,并实现了 LLMs 的快速流式推理。
Apr, 2024
提出一种新的分割方法,用于低延迟的端到端同时语音翻译,并且在多种语言对和领域数据中显示出具有先进水平的质量。
Sep, 2023