文本扩展基准：数据集、度量和基准线

Sep, 2023

文本扩展基准：数据集、度量和基准线

A Benchmark for Text Expansion: Datasets, Metrics, and Baselines

Yi Chen, Haiyun Jiang, Wei Bi, Rui Wang, Longyue Wang...

TL;DR本文提出了文本扩展（TE）的新任务，旨在插入细粒度修改器到纯文本的适当位置以具象化或使人类写作更生动。通过四种互补方法，我们构建了一份包含 1200 万个自动生成实例和 2000 个人工注释的英文和中文数据集。为了便于自动评估，我们从多个角度设计了各种度量指标，特别是提出了 Info-Gain 来有效度量扩展的信息量，它是 TE 任务中一个重要的质量维度。在基于预训练的文本填充模型的基础上，我们构建了基于流水线和联合定位和填充模型，证明了其在扩展信息量上优于 Text2Text 基线方法。实验证实了 TE 任务的可行性，并指出了未来研究朝着更好的自动文本扩展方向的潜在研究方向。

Abstract

This work presents a new task of text expansion (TE), which aims to insert fine-grained modifiers into proper locations of the plain text to concretize or vivify human writings. Different from existing insertion-

text expansion modifiers model dataset automatic text expansion

发现论文，激发创造

短文本扩展的端到端学习

本文提出了一种全新的深度记忆网络来帮助短文本扩展，从而提高短文本分类等机器学习任务的效果。实验结果表明，该方法在真实数据集上显著优于传统的文本扩展方法。

Aug, 2017

EditEval：面向文本改进的基于指令的基准测试

本文提出 EditEval：一种以指令为基础的评测套件，利用高质量的现有和新数据集自动评估编辑能力，证明了 InstructGPT 和 PEER 的表现最佳，而大多数基线都低于监督学习 SOTA，本文通过这个基准的发布和公开可用的排行榜挑战，希望能够解锁未来发展能够进行迭代和更可控编辑的模型的研究。

Sep, 2022

迭代文本编辑的数据生成

本研究提出了一种基于迭代文本编辑的数据到文本生成新方法，使用两个先前训练模型 LaserTagger 和 GPT-2，并通过简单的启发式筛选和已训练语言模型对输出进行筛选和重新排序。

Nov, 2020

文本填充

本文研究了文本生成和填充相关的问题，设计并实现了一种基于自注意力和双向上下文建模的模型，并通过有监督的学习方法进行了实验验证。结果表明，该模型在文本填充任务上表现出色，为未来的相关研究提供了强有力的基线。

Jan, 2019

改进的翻译建议数据增强

介绍了我们在 WMT'22 翻译建议共享任务中提交的系统，该系统基于多种翻译架构的集合，并使用三种策略构建合成数据以补偿监督数据的缺乏，并引入多阶段预训练策略，并在英德和英汉双向任务中排名第二和第三。

Oct, 2022

使用自然语言推理评估数据生成文本的语义准确性

本论文提出了一种使用预训练的自然语言推理神经模型来衡量数据到文本生成语义准确性的新度量方法，并利用该方法来检验两个方向之间的文本蕴含，从而揭示输出中的遗漏或虚构。实验证明，该指标能够在鉴定系统输出的错误方面达到高的精度。

Nov, 2020

搜索与学习：改进数据到文本生成的语义涵盖率

该论文提出一种搜索和学习的方法来解决低语义覆盖率问题，进而提高 data-to-text 生成中预训练语言模型的效率，并在 E2E 和 WikiBio 数据集上实现了高性能。

Dec, 2021

TeTIm-Eval：一个用于比较文本到图像模型的新型策划评估数据集

本文提出一种基于 CLIP-score、人类判断和包含 10 个类别的高质量图片文本数据集的新型评估方法，用于评估和比较最新的文本到图片模型。实验结果表明，人类判断的准确性与 CLIP-score 完全一致。数据集已经向公众开放。

Dec, 2022

朝向视觉分类学的拓展

本文提出了 “视觉分类法扩展”（VTE），将视觉特征引入分类法扩展任务。我们提出了文本上位词学习任务和视觉原型学习任务，以聚类文本和视觉语义。除了各自的任务外，我们还引入了超原型约束，整合文本和视觉语义以产生细粒度的视觉语义。在两个数据集上对我们的方法进行评估，我们获得了令人信服的结果。特别在中文分类法数据集上，我们的方法的准确度提升了 8.75%。此外，我们的方法在中文分类法数据集上的表现优于 ChatGPT。

Sep, 2023

BERT-QE: 基于上下文的查询扩展用于文档重新排名

本论文提供了一种使用 BERT 模型选择相关文档块进行扩展的新型查询扩展模型，能够在标准 TREC Robust04 测试集上显著优于 BERT-Large 模型，有助于解决查询扩展方法引入不相关信息的问题。

Sep, 2020