基于知识提示的评估器：一种新颖的可解释机器翻译评估方法

Jun, 2023

基于知识提示的评估器：一种新颖的可解释机器翻译评估方法

Knowledge-Prompted Estimator: A Novel Approach to Explainable Machine Translation Assessment

Hao Yang, Min Zhang, Shimin Tao, Minghan Wang, Daimeng Wei...

TL;DR本文提出一种基于 CoT 提示的 KPE 方法，该方法结合了 Perplexity、Token-Level 相似性和 Sentence-Level 相似性的技术。实验证明，与以前的深度学习模型和单步提示方法相比，该方法的分段估计性能得到了显著提高，并且提供了更好的 MT 质量估计可解释性。

Abstract

cross-lingual machine translation (MT) quality estimation plays a crucial role in evaluating translation performance. GEMBA, the first MT quality assessment metric based on →

cross-lingual machine translation quality estimation large language models chain-of-thought prompting knowledge-prompted estimator

发现论文，激发创造

通过提示的多知识整合改进神经机器翻译

通过将多种类型的知识，如句子、术语 / 短语和翻译模板有效地融入神经机器翻译 (NMT) 模型，我们提出了一个统一的框架，无需修改模型架构即可实现领域特定的翻译，显著提高了翻译质量和术语匹配准确性。

Dec, 2023

误差分析提示使得大型语言模型的翻译评估类似于人类：以 ChatGPT 为例的案例研究

本文介绍了新的提示方法（Error Analysis Prompting）, 结合 Chain-of-Thoughts 和 Error Analysis, 用于提高 ChatGPT 在机器翻译质量评估方面的性能，并发现了一些其作为 MT 评估器的局限性，结果表明，使用 Error Analysis Prompting，ChatGPT 可以在系统和段落级别上生成类似人类的 MT 评估。

Mar, 2023

基于扰动的质量评估：一种可解释的无监督词级别黑盒机器翻译质量评估方法

本研究提出基于扰动的无监督学习方法，用于评估黑盒机器翻译模型的质量，表现出更好的泛化能力和解释性。

May, 2023

大型语言模型是翻译质量的最先进评估工具

描述了基于 GPT 的翻译质量评估指标 GEMBA，可以用于有参照的和无参照的情况。研究了四个提示变体，并比较了两种方式下的性能表现，发现只能应用于 GPT 3.5 及以上的模型。在 WMT22 的 Leaderboard 中，GEMBA 在三种语言对中具有先进的性能表现。

Feb, 2023

使用人工标注的大型语言模型进行自纠正机器翻译

在本文中，我们进行了一个试点研究，通过在翻译记忆中标记错误并提取类似的例子来引导大型语言模型（LLMs）在技术领域中进行术语翻译以提高翻译质量。实验证明，通过增加人工标记错误的翻译可以引导 LLM 集中于错误修正，相比于自动后期编辑（APE）和从头开始的机器翻译，有着持续的改进。

Jun, 2024

基于知识的提示调优通用视觉语言模型

通过设计两种类型的知识感知提示，离散提示和学习连续提示，以及视觉编码器的适应头部，实现针对视觉 - 语言模型的知识感知提示调整（KAPT）框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的 CoCoOp 方法相比，KAPT 在新类别中获得了 3.22% 的绝对增益和 2.57% 的调和均值增益。

Aug, 2023

验证和编辑：一种知识增强的思维链框架

本文提出了一种用于 CoT 提示的 Verify-and-Edit 框架，通过使用外部知识来编辑推理链以提高其准确性，改善了大语言模型中存在的缺陷，实现了在多个开放型问题回答任务中的准确度提升。

May, 2023

2023 Eval4NLP 子任务：使用促使大型语言模型作为解释性⽅法的度量

介绍了 Eval4NLP 2023 共享任务，要求参与者在机器翻译和摘要评估中探索提示和分数提取，并评估了参与者的方法。在没有 fine-tuning 的限制下，最佳系统的表现与使用更大模型开发的最新的无参考度量标准（包括 GEMBA 和 Comet-Kiwi-XXL）相媲美甚至超过，并对 LLMs 的解释的可行性进行了小规模人类评估。

Oct, 2023

通过提示工程优化机器翻译：ChatGPT 可定制性的研究探讨

这篇论文探讨了将翻译目的和目标受众整合到 ChatGPT 的提示中对所生成翻译质量的影响。研究强调了翻译过程中的前期准备阶段的重要性，通过借鉴以往的翻译研究、行业实践和 ISO 标准进行分析。研究发现，在像 ChatGPT 这样的大规模语言模型中加入适当的提示可以产生灵活的翻译，而传统的机器翻译尚未实现这一目标。通过使用 OpenAI 的词嵌入 API 进行余弦相似度计算，评估从从实际翻译员的视角主观和定性地进行，结果表明将翻译目的和目标受众整合到提示中确实可以修改所生成的翻译，从而在行业标准上普遍提高翻译质量。该研究还展示了 “良好的翻译” 概念的实际应用，特别是在营销文件和文化习语的背景下。

Aug, 2023

预训练语言模型中的知识激发对自然语言理解的影响

本研究提出了知识提示范式和基于知识提示的 Pre-trained 语言模型 KP-PLM 框架，该框架通过多种连续提示规则将知识子图转化为自然语言提示，并在这些提示的基础上提出了两个新的知识感知无监督任务，实验证明了 KP-PLM 在多个自然语言理解任务中的优越性。

Oct, 2022