TURINGBENCH: 面向神经文本生成时代的图灵测试基准环境

EMNLPSep, 2021

TURINGBENCH: 面向神经文本生成时代的图灵测试基准环境

TURINGBENCH: A Benchmark Environment for Turing Test in the Age of Neural Text Generation

Adaku Uchendu, Zeyu Ma, Thai Le, Rui Zhang, Dongwon Lee

TL;DR该研究提出了 TuringBench 基准环境，旨在解决神经文本生成方法的 “图灵测试” 问题，它包括 200K 个人工或机器生成的样本数据集，分别涵盖 20 个标签，以及两个基准测试任务和网站排行榜，研究初步实验表明，FAIR_wmt20 和 GPT-3 是生成最逼近人类无法辨别的文本的最佳选择。

Abstract

Recent progress in generative language models has enabled machines to generate astonishingly realistic texts. While there are many legitimate applications of such models, there is also a rising need to distinguish machi

generative language models turing test neural text generation benchmark environment machine-generated

发现论文，激发创造

图灵欺骗

本研究重新审视了经典的图灵测试，并比较了最近的大型语言模型（如 ChatGPT）重现人类水平的理解和引人入胜的文本生成的能力。我们为 ChatGPT 提供了两个任务挑战，即 summarization 和 question answering，并使用 OpenAI GPT-2 Output Detector 来评估原始和生成的内容。我们针对 ChatGPT 的撰写机制提出了一套评估可读性和统计清晰度、参与度、传递和总体质量的度量和简单语法集。

Dec, 2022

使用大型语言模型模拟多人并复制人类受试研究

介绍了一种新的测试方法 —— 图灵实验（TE），用于评估语言模型（如 GPT-3）模拟人类行为的能力，设计实现了多项经济学、语言学和社会心理学实验的 TE，比较了不同语言模型再现经典实验的表现，揭示了一些语言模型的 “超级精度扭曲” 问题。

Aug, 2022

生成模型的统计图灵测试

通过统计模式识别语言提供了一个框架，量化了针对评估上下文的人类生成内容和机器生成内容之间的差异，描述了当前的方法并演示了如何使用该框架评估生成模型在向人类能力逼近的过程中的进展。

Sep, 2023

M4GT-Bench: 黑盒机器生成文本检测评估基准

通过引入多语言、多领域和多发生器的机器生成文本检测基准 M4GT-Bench，本研究解决了识别和区分机器生成文本与人类生成文本的问题，包括单语和多语二元机器生成文本检测、多类别检测以确定生成文本具体使用的模型以及在人机混合文本中确定生成文本与人类编写内容之间的边界的挑战。

Feb, 2024

人类还是机器？视觉和语言的图灵测试

通过图灵测试进行了人工智能算法和人类的对比实验，实验结果表明在视觉和语言挑战方面，当前的人工智能算法已能够成功模仿人类的判断。同时，该论文提出了一个评价人类模仿能力的方法，通过该方法可以进行新的理论探究与研究成果的展示。

Nov, 2022

学术出版物中自动生成文本检测基准语料库

本研究提出两个数据集，一个完全由 GPT-2 模型生成的合成数据集和一个部分用 Arxiv-NLP 模型生成的文本替换数据集，评估数据集的质量，难度以及分类模型的区分能力。

Feb, 2022

当自动评估遇上自动内容生成：审视 GPT 时代的文本质量

基于机器学习模型对文本数据进行评分的使用已广泛应用于自然语言处理、信息检索、搜索和推荐以及在线内容的可信度评估等领域。这项研究通过实证评估以人工创作和生成预训练变换器（GPT）的文本评估模型之间的差异，发现转换器预训练语言模型（PLM）相对于传统的深度学习和基于特征的机器学习模型更准确地评分人工文本质量，但相对于人工创作的文档，GPT 生成的文本评分平均要高出 10-15％。这一研究对于文本分类设置中的自动评分受到生成 AI 的干扰具有重要的意义。

Sep, 2023

两词测试：大型语言模型语义基准测试

本篇研究提出了一种新的基于双词短语的语义能力评估测试（TWT），研究评估了 GPT-4、GPT-3.5 和 Bard 等大规模语言模型的能力，显示它们在评估短语的意义和辨别无意义词组方面均表现不佳，需要继续进行测试和改进。

Jun, 2023

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023

T$^3$Bench: 文本到 3D 生成的当前进展基准测试

当前的文本生成 3D 方法在建模 NeRF 时使用了预训练扩散模型，能够生成高质量的 3D 场景。本文介绍了 T^3Bench，第一个包含不同复杂级别的文本提示的全面的文本生成 3D 基准测试。我们提出了基于多视角图像和文本内容的两个自动度量标准来评估主观质量和文本与 3D 的一致性。基准测试结果显示了六种主流文本生成 3D 方法之间的性能差异，并凸显了当前方法在生成环境和多物体场景以及利用 2D 指导进行 3D 生成方面的共同困难。

Oct, 2023