WikiIns：一个高质量的数据集，用于通过自然语言指令进行受控文本编辑

Oct, 2023

WikiIns：一个高质量的数据集，用于通过自然语言指令进行受控文本编辑

WikiIns: A High-Quality Dataset for Controlled Text Editing by Natural Language Instruction

Xiang Chen, Zheng Li, Xiaojun Wan

TL;DR本论文研究了通过自然语言指令进行受控文本编辑的问题，并建立了高质量的 WikiIns 数据集以解决现有数据集的信息不足的问题。通过预处理维基百科编辑历史数据库，并进行众包验证和测试，以及小规模训练集的构建，还提出自动生成大规模 “银” 训练集的自动方法。通过对 WikiIns 数据集的分析和实验结果，可以促进文本编辑领域的研究。

Abstract

text editing, i.e., the process of modifying or manipulating text, is a crucial step in human writing process. In this paper, we study the problem of controlled text editing by →

text editing controlled text editing natural language instruction dataset wikiins

发现论文，激发创造

WikiTableEdit: 自然语言指令下的表格编辑基准

本研究通过 WikiTableEdit 数据集，评估大型语言模型在不规则结构的表格编辑任务中的表现，提出了使用自然语言指令进行表格编辑的挑战，并将数据集发布给社区推进相关研究。

Mar, 2024

WikiSQE：维基百科句子质量评估的大规模数据集

提出第一个 Wikipedia 句子质量评估的大规模数据集 WikiSQE，包含了约 340 万句子和 153 个质量标签，并通过机器学习模型进行了实验自动分类，显示具有引文、句法 / 语义或命题问题的句子更难以检测，该数据集在自动化的文章评分实验中表现出更好的泛化性能，并有望成为自然语言处理中其他任务的有价值的资源。

May, 2023

InstructEdit：用于大型语言模型的指令基础知识编辑

大规模语言模型的知识编辑可以提供一种有效的解决方案，以改变模型的行为而不会对整体性能产生负面影响。为了解决当前方法在任务上的有限泛化能力的问题，我们采取了第一步来分析知识编辑中的多任务泛化问题。具体而言，我们开发了一种基于指令的编辑技术，称为 InstructEdit，它通过简单的指令同时促进编辑器对不同任务性能的适应。通过仅使用一个统一的编辑器为每个大规模语言模型，我们经验证明 InstructEdit 可以提高编辑器的控制能力，在多任务编辑设置中可平均提高 14.86％的可靠性。此外，涉及未见任务的实验表明 InstructEdit 始终优于先前的强基准。为了进一步研究基于指令的知识编辑的基本机制，我们分析了编辑梯度方向的主要成分，发现指令可以帮助控制具有更强的无法覆盖的泛化能力的优化方向。代码和数据集将在此 https URL 中提供。

Feb, 2024

WikiDes: 一份基于维基百科的数据集，用于从段落中生成简短描述

介绍了一个新的名为 WikiDes 的数据集，利用 T5 和 BART 等预训练模型实现了基于传递学习和对比学习的短描述生成和排名。结果表明，该方法在文本摘要中的表现优于传统方法，并可用于生成缺失的描述，丰富 Wikidata 知识图谱。

Sep, 2022

指令式文本编辑

本研究通过提出一种交互式文本生成设置，在其中用户通过向系统发出编辑现有文本的命令与系统进行交互，来解决神经文本生成中一次生成的局限性，并介绍了一种新的文本编辑任务。通过使用 Wikipedia 中的单句编辑构成了一个名为 WikiDocEdits 的数据集，使用基于 transformer 的模型在其中进行训练以提高其自动产生的成果和用户评估结果。在此基础上，本研究分别从经验和定性分析方面展示了该模型的性能表现。

Oct, 2020

Wiki-Reliability: 一个面向维基百科内容可靠性的大规模数据集

本文介绍了 Wiki-Reliability 数据集，该数据集是由标记为具有广泛内容可靠性问题的英文维基百科文章构建的，主要应用于内容可靠性预测的机器学习和信息检索算法的研究。

May, 2021

SynthBio: 人工智能和人类协作构建文本数据集的案例研究

本文提出一种利用大型语言模型实现高效数据集筛选的新方法，用于构建结构化属性列表描述虚构人物的评估数据集 SynthBio，与 WikiBio 数据集相比更少噪声且更平衡。

Nov, 2021

HQ-Edit：面向基于指令的图像编辑的高质量数据集

本研究介绍了 HQ-Edit，这是一个包含约 200,000 个编辑的高质量基于指令的图像编辑数据集。通过利用先进的基础模型 GPT-4V 和 DALL-E 3，我们构建了一个可扩展的数据收集流程，收集了多样的在线示例，并使用这些示例创建了具有详细文本提示的高质量双联图像，通过后期处理确保了精确的对齐。此外，我们提出了两个评估指标 Alignment 和 Coherence，通过使用 GPT-4V 对图像编辑对的质量进行定量评估。HQ-Edit 的高分辨率图像以及伴随的全面编辑提示大大增强了现有图像编辑模型的能力，例如，经过微调的 InstructPix2Pix 可以达到最先进的图像编辑性能，甚至超过那些使用人工标注数据进行微调的模型。

Apr, 2024

InstructCoder：赋予语言模型在代码编辑中的能力

本研究使用大型语言模型（LLMs）和 InstructCoder 数据集，探索用户指令下的代码编辑，涵盖评论插入、代码优化和代码重构等多个隐含任务。实验证明，在 InstructCoder 数据集上对开源 LLMs 进行精细调整，能够大多数情况下正确地编辑代码，展现了前所未有的代码编辑性能水平。

Oct, 2023

从维基百科分类中挖掘自然语言推理知识

使用自然标注的维基百科类别层次结构构建的 428,899 个短语对构成的 WikiNLI 资源，通过对 BERT 和 RoBERTa 进行预训练和模型迁移，证明可以最大限度地提高模型在自然语言推理和词汇蕴含方面的表现并在其他语言中表现良好。

Oct, 2020