EditEval：面向文本改进的基于指令的基准测试

Sep, 2022

EditEval：面向文本改进的基于指令的基准测试

EditEval: An Instruction-Based Benchmark for Text Improvements

Jane Dwivedi-Yu, Timo Schick, Zhengbao Jiang, Maria Lomeli, Patrick Lewis...

TL;DR本文提出 EditEval：一种以指令为基础的评测套件，利用高质量的现有和新数据集自动评估编辑能力，证明了 InstructGPT 和 PEER 的表现最佳，而大多数基线都低于监督学习 SOTA，本文通过这个基准的发布和公开可用的排行榜挑战，希望能够解锁未来发展能够进行迭代和更可控编辑的模型的研究。

Abstract

Evaluation of text generation to date has primarily focused on content created sequentially, rather than improvements on a piece of text. Writing, however, is naturally an iterative and incremental process that requires expertise in different →

text generation iterative process modular skills editing capabilities pre-trained models

发现论文，激发创造

EditVal: 基于扩散的文本引导图像编辑方法的基准测试

通过引入 EditVal，这是一个标准化的用于定量评估文本引导的图像编辑方法的基准测试，本研究对 8 种前沿扩散编辑方法进行了基准测试，发现 Instruct-Pix2Pix 和 Null-Text 的性能最好且能保持原始图像特性，而大多数编辑方法在空间操作方面失败，没有一个单独在各种编辑类型上排名最佳的方法。希望我们的基准测试能为未来开发更可靠的文本引导图像编辑工具铺平道路。

Oct, 2023

CoEdIT: 通过任务特定指令调整进行文本编辑

本研究基于指令调整的 LLMs 语言模型，开发了一种名为 CoEdIT 的文本编辑模型，提供高质量和高效率的写作辅助。经过定量和量化分析，我们证明作家们更喜欢 CoEdIT 建议的编辑方式，相对于其他最先进的文本编辑模型。

May, 2023

大型语言模型是否能编辑？评估其按照编程编辑指令的能力

通过一个仔细设计的代码编辑任务基准以及结合自然语言指令的训练集，我们评估了几个最先进的大型语言模型，并揭示了现有开源和闭源模型之间的显著差距。同时，我们展示了通过精细调优开源代码语言模型可以显著提高其代码编辑能力。

Dec, 2023

指令式文本编辑

本研究通过提出一种交互式文本生成设置，在其中用户通过向系统发出编辑现有文本的命令与系统进行交互，来解决神经文本生成中一次生成的局限性，并介绍了一种新的文本编辑任务。通过使用 Wikipedia 中的单句编辑构成了一个名为 WikiDocEdits 的数据集，使用基于 transformer 的模型在其中进行训练以提高其自动产生的成果和用户评估结果。在此基础上，本研究分别从经验和定性分析方面展示了该模型的性能表现。

Oct, 2020

使用文本编辑模型生成文本

本文介绍了文本编辑模型和 seq2seq 模型，分析了它们的优缺点，探讨了生产化和应对文本生成中的幻觉和偏见等挑战。

Jun, 2022

INSTRUCTSCORE：自动反馈的可解释文本生成评估方法

该研究介绍了 INSTRUCTSCORE，一种可解释的用于评估文本生成的评估度量标准，通过利用显式人类指令和 GPT4 的隐式知识来创建评估度量标准。研究结果表明，INSTRUCTSCORE 可以在不需要人类数据之间达到类似于 COMET22 等最先进度量标准的性能水平。

May, 2023

CodeEditorBench: 大型语言模型的代码编辑能力评估

通过 CodeEditorBench，我们为 LLMs 的代码编辑能力提供了一个可靠的评估平台，其中 19 个 LLMs 的评估结果表明闭源模型（特别是 Gemini-Ultra 和 GPT-4）在 CodeEditorBench 中优于开源模型，并突出了基于问题类型和提示敏感性的模型性能差异。

Apr, 2024

XATU：面向可解释文本更新的精细级指令基准

本文介绍了 XATU，这是第一个专门针对细粒度指令的可解释文本编辑的基准，涵盖了广泛的主题和文本类型，并使用高质量的数据源和人工注释，评估了现有大型语言模型在不同编辑任务中的效果，揭示了解释对于文本编辑任务中的语言模型微调的重要作用。

Sep, 2023

GPTScore：任意评估

本文提出了一种新的评估框架 GPTScore，利用生成预训练模型的崭新能力对生成的文本进行评分，实验结果表明该方法能够高效地实现对文本的定制化、多方面评估，不需要注解样本。

Feb, 2023

迭代文本编辑的数据生成

本研究提出了一种基于迭代文本编辑的数据到文本生成新方法，使用两个先前训练模型 LaserTagger 和 GPT-2，并通过简单的启发式筛选和已训练语言模型对输出进行筛选和重新排序。

Nov, 2020