基于知识提示的评估器:一种新颖的可解释机器翻译评估方法
通过将多种类型的知识,如句子、术语 / 短语和翻译模板有效地融入神经机器翻译 (NMT) 模型,我们提出了一个统一的框架,无需修改模型架构即可实现领域特定的翻译,显著提高了翻译质量和术语匹配准确性。
Dec, 2023
本文介绍了新的提示方法(Error Analysis Prompting), 结合 Chain-of-Thoughts 和 Error Analysis, 用于提高 ChatGPT 在机器翻译质量评估方面的性能,并发现了一些其作为 MT 评估器的局限性,结果表明,使用 Error Analysis Prompting,ChatGPT 可以在系统和段落级别上生成类似人类的 MT 评估。
Mar, 2023
描述了基于 GPT 的翻译质量评估指标 GEMBA,可以用于有参照的和无参照的情况。研究了四个提示变体,并比较了两种方式下的性能表现,发现只能应用于 GPT 3.5 及以上的模型。在 WMT22 的 Leaderboard 中,GEMBA 在三种语言对中具有先进的性能表现。
Feb, 2023
在本文中,我们进行了一个试点研究,通过在翻译记忆中标记错误并提取类似的例子来引导大型语言模型(LLMs)在技术领域中进行术语翻译以提高翻译质量。实验证明,通过增加人工标记错误的翻译可以引导 LLM 集中于错误修正,相比于自动后期编辑(APE)和从头开始的机器翻译,有着持续的改进。
Jun, 2024
通过设计两种类型的知识感知提示,离散提示和学习连续提示,以及视觉编码器的适应头部,实现针对视觉 - 语言模型的知识感知提示调整(KAPT)框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的 CoCoOp 方法相比,KAPT 在新类别中获得了 3.22% 的绝对增益和 2.57% 的调和均值增益。
Aug, 2023
本文提出了一种用于 CoT 提示的 Verify-and-Edit 框架,通过使用外部知识来编辑推理链以提高其准确性,改善了大语言模型中存在的缺陷,实现了在多个开放型问题回答任务中的准确度提升。
May, 2023
介绍了 Eval4NLP 2023 共享任务,要求参与者在机器翻译和摘要评估中探索提示和分数提取,并评估了参与者的方法。在没有 fine-tuning 的限制下,最佳系统的表现与使用更大模型开发的最新的无参考度量标准(包括 GEMBA 和 Comet-Kiwi-XXL)相媲美甚至超过,并对 LLMs 的解释的可行性进行了小规模人类评估。
Oct, 2023
这篇论文探讨了将翻译目的和目标受众整合到 ChatGPT 的提示中对所生成翻译质量的影响。研究强调了翻译过程中的前期准备阶段的重要性,通过借鉴以往的翻译研究、行业实践和 ISO 标准进行分析。研究发现,在像 ChatGPT 这样的大规模语言模型中加入适当的提示可以产生灵活的翻译,而传统的机器翻译尚未实现这一目标。通过使用 OpenAI 的词嵌入 API 进行余弦相似度计算,评估从从实际翻译员的视角主观和定性地进行,结果表明将翻译目的和目标受众整合到提示中确实可以修改所生成的翻译,从而在行业标准上普遍提高翻译质量。该研究还展示了 “良好的翻译” 概念的实际应用,特别是在营销文件和文化习语的背景下。
Aug, 2023
本研究提出了知识提示范式和基于知识提示的 Pre-trained 语言模型 KP-PLM 框架,该框架通过多种连续提示规则将知识子图转化为自然语言提示,并在这些提示的基础上提出了两个新的知识感知无监督任务,实验证明了 KP-PLM 在多个自然语言理解任务中的优越性。
Oct, 2022