Texygen: 文本生成模型基准测试平台
该研究关注文本生成的人类评估问题,通过注释设计选择和人类评估数据,提出一种自动化去除噪音注释者的机制,并基于此开发了 GENIE 系统,用于跨不同任务运行标准化的人类评估,提供总排行榜,已在四个核心文本生成任务上进行测试。
Jan, 2021
Texar 是一个开源工具包,支持广泛的文本生成任务,旨在将任何输入转化为自然语言,包括机器翻译、摘要、对话、内容操作等。它以模块化、通用性和可扩展性为设计目标,提取了不同任务和方法学的共同模式,创建了高度可重用模块的库,并允许任意模型架构和算法范例。支持 TensorFlow 和 PyTorch,并在 Apache License 2.0 下发布。
Sep, 2018
本文介绍了一个名为 TextBox 的开源库,旨在提供一种统一、模块化和可扩展的文本生成框架。该库支持广泛的文本生成任务和模型,并且通过将模型架构、推断和学习过程适当地分解为高度可重用的模块,保持了足够的模块化和可扩展性,使用户可以轻松地将新模型整合到我们的框架中。
Jan, 2021
本研究提出两个数据集,一个完全由 GPT-2 模型生成的合成数据集和一个部分用 Arxiv-NLP 模型生成的文本替换数据集,评估数据集的质量,难度以及分类模型的区分能力。
Feb, 2022
通过引入 GenoTEX 作为一个基准数据集,我们展示了 LLM(大型语言模型)方法在基因组数据分析中的潜力,并提出了 GenoAgents 团队作为解决基因数据集任务的基线算法,同时也指出了改进的挑战和方向。
Jun, 2024
该研究提出了 TuringBench 基准环境,旨在解决神经文本生成方法的 “图灵测试” 问题,它包括 200K 个人工或机器生成的样本数据集,分别涵盖 20 个标签,以及两个基准测试任务和网站排行榜,研究初步实验表明,FAIR_wmt20 和 GPT-3 是生成最逼近人类无法辨别的文本的最佳选择。
Sep, 2021
本文介绍了一种新的合成文本图像生成器 SynthTIGER,通过分析用于文本图像合成的技术并将有效技术融合到单个算法中,缓解了现实世界中注释文本图像的缺乏问题,采用两种技术缓解了训练数据长度和字符分布方面的长尾问题,SynthTIGER 获得了比合成数据集 MJSynth (MJ) 和 SynthText (ST) 更好的 STR 性能。
Jul, 2021
通过 BiGGen Bench 的引入,对 77 个不同任务中的九种语言模型的生成能力进行了全面评估,并借助实例特定的评估标准来模拟人类评估的微妙辨别。该研究公开提供了代码、数据和评估结果。
Jun, 2024
在大型语言模型生成高质量文本的时代,开发用于检测机器生成文本以避免有害使用或仅用于注释目的的方法是必要的。本文提出了 IMGTB 框架,通过简化定制(新)方法和评估数据集的集成,简化了机器生成文本检测方法的基准测试,其可配置性和灵活性使得新的检测方法的研究和开发更加容易,尤其是与现有技术水平检测器的比较。该工具提供的默认分析、指标和可视化遵循现有技术文献中机器生成文本检测基准测试的成熟实践。
Nov, 2023