- 通过反翻译来抵御 LLMs 的越狱攻击
通过后向翻译提出了一种新的防御方法,用于保护大型语言模型免受越狱攻击,该方法明显优于其他方法,并对良性输入提示的生成质量几乎没有影响。
- EMNLP医生对机器翻译中的临床危害的检测:质量估计有助于信赖和反向翻译发现关键错误
机器翻译的实际应用中一个重要的挑战是用户缺乏决策指导,本文通过在高风险的医疗环境中模拟决策过程,评估了质量估计反馈对决策的影响,发现质量估计提高了适当依赖机器翻译的能力,但与仅使用质量估计相比,后翻译帮助医生发现了更多常常被质量估计忽视的临 - 基于单元的无平行数据语音翻译
本文提出了一种基于自动发现独立单元的无监督语音到语音翻译系统,使用三步训练过程,避免使用自动语音识别和文本转语音模型,在合成语音上的实验结果表明该方法可行。
- 单语数据何时对多语言翻译有帮助:领域和模型规模的作用
通过实验研究了多种语言机器翻译在不同数据条件和模型尺度下,去噪自编码器和回译技术对多种语言机器翻译的影响、以及单语数据在多种语言机器翻译中的作用和数据规模对机器翻译的影响等问题。结果发现单语数据总体有益于机器翻译,但在小型模型中对领域不匹配 - WMT22 通用任务中的 CUNI 提交
CUNI-Bergamot 参加 WMT22 普通翻译任务,通过分析 COMET 分数和命名实体翻译准确性,比较传统混合回译训练和 MBR 解码的性能,结果表明两种方法都有效地提高了翻译质量,并且当同时应用时效果更好。
- 改进印度语系多语言神经机器翻译系统
本文提出了一个 MNMT 系统,通过各种增强策略改进它的性能,研究了方言、语言脚本等因素在提高低资源语言翻译表现中的作用,并展示了回译和领域适应对提高源语言和目标语言翻译质量的优势。通过这些方法,我们的模型在评价指标(即一组 IL 的 BL - EMNLPMMTAfrica: 非洲语言的多语言机器翻译
本文描述了我们在 2021 年 WMT 共享任务:大规模多语言机器翻译中针对非洲语言的多语言机器翻译任务,提出了第一个多对多非洲语言翻译系统 MMTAfrica,并介绍了一种新的反向翻译和重构目标 BT&REC,可有效利用单语数据。通过 M - 无监督生成式语言模型神经机器翻译
通过使用大型预训练语言模型的零 - shot 翻译能力,结合少样本放大、去噪和回译等方法,成功地实现了最新的无监督神经机器翻译模型,在 WMT14 英法数据集上获得了 BLEU 42.1 的最高性能表现。
- 使用回译的数据增强方法应用于低资源的命名实体识别
本文提出了基于回译技术的数据增强策略,用于命名实体识别任务的低资源域,实验结果表明该方法在材料科学和生物医学领域中均表现出了高效的性能。
- ACL神经机器翻译中幻觉现象的好奇案例
本文研究神经机器翻译中的幻觉,提出了两个关键的幻觉方式(源扰动下和语料级别噪声下),并阐述了数据生成过程中的幻觉放大现象,其中 Backtranslation 是一种常见的数据生成方法。
- 从多个来源选择回译数据以改进神经机器翻译
本文提出了使用不同的机器翻译方法进行回译来生成合成训练语料,并使用数据选择策略来优化其性能,进而提高低资源语言的机器翻译质量。结果表明,这种方法可以有效地提升机器翻译的性能。
- ACL改进大规模多语言神经机器翻译和零样例翻译
本文探讨了如何改善大规模多语言神经机器翻译模型的性能,并提出了加强模型能力、引入语言特定组件和加深神经机器翻译结构以支持具有不同类型学特征的语言对,同时通过随机在线回译来解决离线训练中未出现的语言对翻译问题。实验结果表明,本方法在一对多和多 - 无监督唱声转换
该论文提出了一种基于深度学习的歌唱声音转换方法,该方法不需要以文本或音符为条件,并可直接将一个歌手的音频转换为另一个歌手的声音。通过使用单个 CNN 编码器和一个分类器来进行训练和模型改进,每个歌手都表示为一个嵌入式向量,以便检测其独特的音 - 利用 ULMFit 和回译进行低资源文本分类
通过深度学习模型数据增强技术,本文提高了 IMDB 电影评论数据集的文本分类准确性,其中采用了 Wei 和 Zou(2019)介绍的随机 token 扰动和将其翻译回到英语的回译技术,而回译技术的效果优于其他技术。最终,通过使用回译技术进行 - ACL句法控制释义网络生成对抗性样本
通过建议句法控制的转述网络,生成对抗样例,数据来自大规模的回译,尝试指定目标句法,通过人工和自动化评估表明此系统可以发现还原目标规范且性能不亚于现有对照组,增强了对语法变化的鲁棒性。