- 通过持续预训练并行数据提高大型语言模型的翻译准确性
通过两阶段训练方法,即不断在并行数据上预训练大型语言模型并在少量高质量并行数据上进行有监督微调,我们证明了这种方法的有效性。我们的研究表明,在并行数据的持续预训练中,在源句和目标句之间交替使用是至关重要的。此外,我们还证明了基于 LLM 的 - 探究人机评估并行口语翻译的相关性
评估口译服务的表现是一项复杂的任务,尤其是在应用自动评估方法时,本研究旨在通过分析自动度量与人工评估之间的相关性来评估同传口译的可靠性,结果表明 GPT 模型,特别是 GPT-3.5 具有最强的语义相似性相关性,即使在评估短文本片段时也是如 - 对于英德拉维底亚机器翻译中性别偏见缓解的思维链的重要性
研究审查了跟特拉如古语和卡纳达语这类属于达罗毗荼语系的机器翻译系统中的性别偏见带来的挑战,通过使用谷歌翻译和 ChatGPT 分析性别词尾对翻译准确性和中性的影响,发现复数形式可以减少偏见,但是个体中心的句子往往保持偏见,研究评估了智能链处 - 利用众包进行网络挖掘的日中平行语料库
使用众包的方法,我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对(平行顶级页面对),并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行 - 增强的自动语言预测与字典胶囊 —— 一种新的方法
提出了一种新颖的自动语言预测字典胶囊 (ALPDC) 框架,用于语言预测和机器翻译,该模型结合神经网络和符号表示来预测给定输入文本的语言,并使用预构建的字典将其翻译成目标语言。该研究工作还旨在将各种语言的文本翻译为英文的字面含义。该提出的模 - 无监督神经机器翻译的实证研究:NMT 输出、模型行为和句子贡献的分析
无监督神经机器翻译(UNMT)关注于提高无人翻译平行数据的 NMT 结果,但在突出其优势与分析除翻译准确性以外的输出方面,迄今为止还做得很少。我们聚焦于三种非常不同的语言,法语、古吉拉特语和哈萨克语,并使用不同程度的监督来训练双语 NMT - 使翻译器对用户的隐私意识增强
我们提出了 PRISM,以使机器翻译系统的用户能够保护其数据的隐私。PRISM 通过在用户端提供数据保护功能,解决了当前机器翻译引擎存在的隐私保护不足的问题,并在不显著影响翻译准确性的前提下增加了额外的安全保障。
- 通过先进的上下文学习增强机器翻译:GPT-4 改进的方法论策略
GPT-4 利用上下文学习来提高翻译准确性,通过精心选择最有效的示例,该方法极大地增强了机器翻译的准确性,消除了针对特定任务的精细调优的需求,不仅提高了翻译准确性,还丰富了对微妙语言结构的理解。这种方法在机器学习中表示了一大步,利用 GPT - 基于语言学的 ChatGPT 提示对日中机器翻译的增强:以定语从句为例的案例研究
在日汉翻译语言学领域中,我们提出了一个基于语言学角度的研究问题:修饰名词的语义角色如何影响专有名词的属性翻译模板的选择,进而提出了一个增强翻译准确度的预编辑方案和一个结合 ChatGPT 的新颖的双阶段提示策略,在零 - shot 情况下优 - JParaCrawl v3.0:大规模英日平行语料库
本文介绍了一个新的基于网络的英日平行语料库 JParaCrawl v3.0,其包括超过 2100 万个独特的平行句对,证明它可以提高各种领域机器翻译模型的准确性,并将在将来公开发布。
- ACL非自回归翻译的渐进式多粒度训练
本文证明 non-autoregressive translation 偏爱学习细粒度语言知识,并提出了逐步加深语言粒度的 multi-granularity training 方法,实验结果表明该方法能够提高短语翻译准确率、模型排序能力, - 无监督图像对图像翻译的对比学习
本文提出了一种无监督、基于对比学习的图像翻译方法,其主要思想是学习一个判别器,将不同的图像风格区分开来,并使其监督生成器将这些风格在图像之间进行转移。实验结果表明,该方法在视觉质量和翻译准确度方面优于当前领先的无监督基线模型。
- ACL语音的一致转录和翻译
本研究探索了一种同时实现语音转写和翻译的方法,并比较了传统串联式方法和端到端模型的表现。研究发现,直接模型不适用于这一任务,但采用耦合推理过程的端到端模型能够实现强一致性。此外,研究还引入了直接优化一致性的简单技术,并分析了一致性、转写准确 - ACL变分神经机器翻译与正则化流
本研究提出了利用变分神经机器翻译(VNMT)框架来改进翻译准确性,通过引入潜在的随机变量模拟源语句和目标翻译的生成,并针对目前 Transformer 的不足进行改进,实现了在域内和域外条件下显著优于强基线的效果。
- AAAI基于课程学习的非自回归神经机器翻译的微调
通过引入课程学习到 NAT 的微调过程中,本文提出的方法在 BLEU 度量上比以往的 NAT 基线有很大改进,同时在推理期间的速度比 AT 基线快 10 倍以上。
- EMNLP多语言语言聚类神经机器翻译
本文提出了一种语言聚类框架,通过使用两种语言聚类的方法(一种是根据语言系族群划分,另一种是使用语言向量嵌入空间进行聚类),将成千上万种语言分成不同的群组,并针对每个群组训练一个多语言神经机器翻译模型,该方法可以有效提高翻译准确度。
- 多语言自注意翻译模型的参数共享方法
本论文研究了多语言神经机器翻译中参数共享技术,发现完全参数共享方法能够提高 BLEU 得分,但是对于较为不同的语言,BLEU 得分反而下降。因此,我们提出了针对局部参数共享的方法,能够显著提高翻译精度。
- ACL个性化神经机器翻译的极端适应性
本文提出了一种简单而参数高效的自适应技术,通过适应输出 softmax 的偏差来适应机器翻译系统的每个特定用户,从而改善翻译准确性和更好地反映说话者特点在目标文本中。
- ACLNematus: 一种用于神经机器翻译的工具箱
Nematus 是一个重视高翻译精度、易用性和可扩展性的神经机器翻译工具,可用于构建在 WMT 和 IWSLT 共享翻译任务中表现最好的提交,并用于训练生产环境的系统。
- COLING相关语言之间基于子词级短语的 SMT 的更快解码
本文研究了基于短语的统计机器翻译框架中不同解码器参数和数据格式的选择对解码时间和翻译准确性的影响,并建议了最佳设置,显著提高解码时间,对翻译准确性影响较小。