Texygen: 文本生成模型基准测试平台

Feb, 2018

Texygen: 文本生成模型基准测试平台

Texygen: A Benchmarking Platform for Text Generation Models

Yaoming Zhu, Sidi Lu, Lei Zheng, Jiaxian Guo, Weinan Zhang...

TL;DRTexygen 是一个支持对开放域文本生成模型进行研究的基准测试平台，它实现了大多数文本生成模型，并涵盖了一组用于评估生成文本的多样性、质量和一致性的度量标准。该平台有助于标准化文本生成研究，促进研究人员共享调整优化的开源实现，并改善未来文本生成研究工作的再现性和可靠性。

Abstract

We introduce texygen, a benchmarking platform to support research on open-domain text generation models. →

texygen text generation models benchmarking platform diversity quality

发现论文，激发创造

GENIE：面向文本生成的可重复和标准化人类评估技术

该研究关注文本生成的人类评估问题，通过注释设计选择和人类评估数据，提出一种自动化去除噪音注释者的机制，并基于此开发了 GENIE 系统，用于跨不同任务运行标准化的人类评估，提供总排行榜，已在四个核心文本生成任务上进行测试。

Jan, 2021

Texar: 一款模块化、通用、可扩展的文本生成工具包

Texar 是一个开源工具包，支持广泛的文本生成任务，旨在将任何输入转化为自然语言，包括机器翻译、摘要、对话、内容操作等。它以模块化、通用性和可扩展性为设计目标，提取了不同任务和方法学的共同模式，创建了高度可重用模块的库，并允许任意模型架构和算法范例。支持 TensorFlow 和 PyTorch，并在 Apache License 2.0 下发布。

Sep, 2018

TabGenie：一款用于表格到文本生成的工具包

TabGenie 是一个工具包，使用统一的表格文本生成框架使研究人员能够探索、预处理和分析多种数据到文本生成的数据集。

Feb, 2023

TextBox：文本生成的统一，模块化和可扩展框架

本文介绍了一个名为 TextBox 的开源库，旨在提供一种统一、模块化和可扩展的文本生成框架。该库支持广泛的文本生成任务和模型，并且通过将模型架构、推断和学习过程适当地分解为高度可重用的模块，保持了足够的模块化和可扩展性，使用户可以轻松地将新模型整合到我们的框架中。

Jan, 2021

学术出版物中自动生成文本检测基准语料库

本研究提出两个数据集，一个完全由 GPT-2 模型生成的合成数据集和一个部分用 Arxiv-NLP 模型生成的文本替换数据集，评估数据集的质量，难度以及分类模型的区分能力。

Feb, 2022

GenoTEX: 基于 LLM 的基因表达数据探索与生物信息学家对齐的评估基准

通过引入 GenoTEX 作为一个基准数据集，我们展示了 LLM（大型语言模型）方法在基因组数据分析中的潜力，并提出了 GenoAgents 团队作为解决基因数据集任务的基线算法，同时也指出了改进的挑战和方向。

Jun, 2024

TURINGBENCH: 面向神经文本生成时代的图灵测试基准环境

该研究提出了 TuringBench 基准环境，旨在解决神经文本生成方法的 “图灵测试” 问题，它包括 200K 个人工或机器生成的样本数据集，分别涵盖 20 个标签，以及两个基准测试任务和网站排行榜，研究初步实验表明，FAIR_wmt20 和 GPT-3 是生成最逼近人类无法辨别的文本的最佳选择。

Sep, 2021

SynthTIGER: 面向更好文本识别模型的合成文本图像生成器

本文介绍了一种新的合成文本图像生成器 SynthTIGER，通过分析用于文本图像合成的技术并将有效技术融合到单个算法中，缓解了现实世界中注释文本图像的缺乏问题，采用两种技术缓解了训练数据长度和字符分布方面的长尾问题，SynthTIGER 获得了比合成数据集 MJSynth (MJ) 和 SynthText (ST) 更好的 STR 性能。

Jul, 2021

BiGGen Bench：一种用于精细评估语言模型的基准

通过 BiGGen Bench 的引入，对 77 个不同任务中的九种语言模型的生成能力进行了全面评估，并借助实例特定的评估标准来模拟人类评估的微妙辨别。该研究公开提供了代码、数据和评估结果。

Jun, 2024

IMGTB：机器生成文本检测基准框架

在大型语言模型生成高质量文本的时代，开发用于检测机器生成文本以避免有害使用或仅用于注释目的的方法是必要的。本文提出了 IMGTB 框架，通过简化定制（新）方法和评估数据集的集成，简化了机器生成文本检测方法的基准测试，其可配置性和灵活性使得新的检测方法的研究和开发更加容易，尤其是与现有技术水平检测器的比较。该工具提供的默认分析、指标和可视化遵循现有技术文献中机器生成文本检测基准测试的成熟实践。

Nov, 2023