繁殖机器翻译：进化方式在自动评估世界中生存和繁荣

May, 2023

繁殖机器翻译：进化方式在自动评估世界中生存和繁荣

Breeding Machine Translations: Evolutionary approach to survive and thrive in the world of automated evaluation

Josef Jon, Ondřej Bojar

TL;DR本研究提出基于遗传算法的机器翻译系统改进方法，利用多种自动评估指标作为适应度函数，产生新颖、多样的高质量输出。同时，利用该方法找出无效评估指标的盲点和缺陷，进而构建对抗样本数据集，并证明基于参考文献的COMET系统鲁棒性更强。

Abstract

We propose a genetic algorithm (GA) based method for modifying n-best lists produced by a machine translation (MT) system. Our method offers an innovative approach to improving MT quality and identifying weakness

发现论文，激发创造

COMET: 机器翻译评估的神经框架

介绍了 COMET，这是一个使用神经网络的多语言机器翻译评估模型，它利用了跨语言预训练语言建模的最新进展，通过同时使用源输入和目标语言的参考翻译来更准确地预测机器翻译的质量，并在 WMT 2019 指标共享任务中获得了新的最优表现，并展示了对高性能系统的鲁棒性。

Sep, 2020

推动正确按钮：对质量评估的对抗性评估

该论文提出了一种对机器翻译中的质量评估进行敌对测试的方法，通过研究近期最优设备的评价体系，发现某些含有意义错误的翻译结果是难以被评估系统检测的。同时，该论文还研究了翻译结果保留原本含义和改变原本含义两种扰动的区别，并探讨了这种方法对于评估系统的多个领域可能产生的影响以及评估结果可行性的可比性。

Sep, 2021

EvolveMT: 基于使用的集成翻译引擎自我优化

EvolveMT是一种元机器翻译系统，利用在线学习和神经质量估计来动态自适应地组合多个机器翻译引擎，从而在不需要昂贵的人工反馈再训练的情况下提高翻译质量的同时降低成本。

Jun, 2023

连接大型语言模型与进化算法产生强大的提示优化器

通过连接大型语言模型和进化算法，本论文提出了一种用于离散提示优化的新框架——EvoPrompt，极大地提升了语言理解和生成任务中大型语言模型的表现，并展示了语言模型与传统算法结合的协同效应。

Sep, 2023

自动机器翻译度量指标的鲁棒性测试与对抗攻击

我们研究了对抗性合成文本上的机器翻译评估指标的性能，以阐明指标的稳健性。我们对三个流行的机器翻译指标（BERTScore、BLEURT和COMET）进行了单词级和字符级的攻击实验。我们的人工实验验证了自动指标倾向于过度惩罚对抗性降级翻译。我们还发现了BERTScore评级的不一致性，在判断原始句子和对抗性降级句子相似的同时，将降级翻译与参考文献相比较，判断其比原始句子明显更差。我们确定了一些脆弱性模式，从而推动更稳健的指标开发。

Nov, 2023

利用大型语言模型演化代码

用大型语言模型（LLM）进行演化代码的算法最近才出现在遗传编程（GP）领域中。我们提出了LLM GP，这是一种基于LLM的形式化演化算法，旨在演化代码。与GP类似，它使用进化算子，但其设计和实现与GP截然不同，因为它利用了LLM的提示和LLM的预训练模式匹配和序列完成能力。我们还提供了LLM GP的演示级变体及其代码。通过涵盖从形式到实践的算法，我们涵盖了设计和LLM使用的考虑因素，以及使用LLM进行遗传编程时出现的科学挑战。

Jan, 2024

大语言模型时代的进化计算：调查与路线图

基于大型语言模型（LLMs）和进化算法（EAs）的优势和互补性，本文提出了一篇综合综述和展望性的论文，将它们的相互启示分为LLM增强进化优化和EA增强LLM两个方面，并介绍了一些整合方法来论证在各种应用场景中LLMs与EAs的融合。这篇论文是围绕LLMs时代的EA研究的首个综合综述，为了解和利用LLMs与EAs之间的协作潜力奠定了基础，并提供了挑战和未来方向的指导。

Jan, 2024

MT-Ranker: 无参考系统间排序的机器翻译评估

机器翻译评估已被传统上视为回归问题，但这种方法存在两个限制：缺乏可解释性且人工评注者难以给出一致的分数；在真实的场景中，大多数评分方法基于（参考翻译）对，限制了它们的适用性。本研究提出一种新的评估方法，将无参考机器翻译评估转化为配对排序问题，并通过使用自然语言推理的间接监督和合成数据的弱监督来展示其与人类判断的卓越相关性。MT-Ranker在无人工注释的情况下，在DARR20、MQM20、MQM21等 WMT Shared Metrics Task 基准测试上取得了最先进的结果，在包含细粒度评估标准的更有挑战的基准测试 ACES 上，MT-Ranker在无参考和参考基准线上表现出最先进的水平。

Jan, 2024

LLM引导演化：模型升级的自动化

通过利用大型语言模型的指导进化框架，研究证明了机器学习模型的自主进化和增强设计的潜力。

Mar, 2024

追随COMET：利用最小贝叶斯风险解码实现自我改进的机器翻译

本文研究了最小贝叶斯风险（MBR）解码在自我改进机器翻译（MT）中的应用，特别是针对领域适应和资源匮乏的语言。通过使用COMET作为MBR效用度量，我们实现了在MBR解码的正向翻译上微调模型的自我改进过程，旨在实现与人类偏好更为一致的翻译重新排名。该文探讨了这种方法的迭代应用和可能需要语种特定MBR效用度量的潜在需求。结果显示，在所有考察的语言对中，包括领域适应模型的成功应用和对资源匮乏环境的泛化，都显著提高了翻译质量。这突显了COMET指导的MBR在各种场景下实现高效MT自我改进的潜力。

May, 2024