生成模型的统计图灵测试
本研究重新审视了经典的图灵测试,并比较了最近的大型语言模型(如 ChatGPT)重现人类水平的理解和引人入胜的文本生成的能力。我们为 ChatGPT 提供了两个任务挑战,即 summarization 和 question answering,并使用 OpenAI GPT-2 Output Detector 来评估原始和生成的内容。我们针对 ChatGPT 的撰写机制提出了一套评估可读性和统计清晰度、参与度、传递和总体质量的度量和简单语法集。
Dec, 2022
本文针对科学文献中 AI 生成的文本与人类编写的文本之间的差距进行了探讨,提出了一个通过语法、语义和语用来区分 AI 文本的框架,进而将提取到的特征用于分析两种不同类型的内容,发现 AI-generate 的科学文本在深度和总体质量方面还有待提高,并存在事实性问题等方面的差距,同时我们发现 AI-generate 的科学文本和人类编写的科学文本之间存在 “写作风格” 方面的差距,从而提出一些模型和分布无关的特征来用于其他领域的检测任务,这些研究结果有助于指导 AI 模型的优化,以产生高质量的文本,同时也有助于解决相关的伦理和安全问题。
Jan, 2023
通过图灵测试进行了人工智能算法和人类的对比实验,实验结果表明在视觉和语言挑战方面,当前的人工智能算法已能够成功模仿人类的判断。同时,该论文提出了一个评价人类模仿能力的方法,通过该方法可以进行新的理论探究与研究成果的展示。
Nov, 2022
我们提出了一个替代方法来量化语言模型学习自然语言的程度:我们询问它们多大程度上与自然语言的统计倾向相匹配。通过分析语言模型生成的文本是否呈现出它们所训练的人类生成文本中存在的统计倾向,提供了一个与显著性测试配对的框架来评估语言模型的拟合程度。我们发现神经语言模型似乎只学会了一部分被考虑的倾向,但与经验性趋势相比,更接近所提出的理论分布(当存在时)。此外,对不同分布的拟合程度高度依赖于模型架构和生成策略。作为具体例子,使用 Nucleus sampling 方式生成的文本比使用标准祖先抽样生成的文本更紧密地遵循自然语言的类型 - 标记关系;LSTMs 生成的文本也非常好地反映了自然语言的长度、停用词和符号分布。
May, 2021
通过对人类写作文本和基于大型语言模型的生成文本进行比较研究,该论文展示了在不同文体中对于人类文本和生成文本进行分类的机器学习模型的效果,同时指出在故事写作方面识别生成文本的困难性,为未来在人工智能文本识别方面提供了启示和研究数据集。
Jul, 2023
通过引入 Relative Creativity 的概念,我们将重点转移到 AI 是否能够与理论上的人类创造能力相媲美,并基于统计学上可量化的评估,介绍了 Statistical Creativity 作为衡量 AI 创造力的方法。通过分析创造力度量,并引入可行的训练指导方针,我们建立了一个评估和促进 AI 模型中统计创造力的连贯、不断发展和变革的框架。
Jan, 2024
对于检测机器生成文本的分类性能进行了批判性研究,发现分类器对文体变化和文本复杂性的差异非常敏感,在某些情况下完全退化为随机分类器,同时易于阅读的文本易于被误分类,而复杂文本的性能较高。
Jun, 2024
该研究提出了 TuringBench 基准环境,旨在解决神经文本生成方法的 “图灵测试” 问题,它包括 200K 个人工或机器生成的样本数据集,分别涵盖 20 个标签,以及两个基准测试任务和网站排行榜,研究初步实验表明,FAIR_wmt20 和 GPT-3 是生成最逼近人类无法辨别的文本的最佳选择。
Sep, 2021
本教程关注于文本生成,这是一类自然语言生成任务,它以一段文本作为输入,然后生成一篇按照某些特定标准(如可读性或语言风格)改进的修订版本,同时保留原版文本的大部分含义和长度。
Oct, 2023