AI 是否能像人类一样写古代汉诗？基于图灵测试的实证研究

Jan, 2024

AI 是否能像人类一样写古代汉诗？基于图灵测试的实证研究

Can AI Write Classical Chinese Poetry like Humans? An Empirical Study Inspired by Turing Test

Zekun Deng, Hao Yang, Jun Wang

TL;DR本文通过研究一项重要问题，提出了 ProFTAP 评估框架，将其应用于目前的大型语言模型（LLMs）并发现最新的 LLMs 确实具备了与人类几乎无法区分的写作古典汉诗的能力，同时揭示多个开源 LLMs 能够胜过 GPT-4 在这一任务上。

Abstract

Some argue that the essence of humanity, such as creativity and sentiment, can never be mimicked by machines. This paper casts doubt on this belief by studying a vital question: Can →

humanity machines ai poetry proftap

发现论文，激发创造

基于预训练模型生成中国古典诗歌

本研究使用 BART 和其他预训练模型，提出 FS2TEXT 和 RR2TEXT 以生成韵律诗和特定风格的诗歌文本，并解决了用户写作意图逐渐降低所生成的诗歌文本相关性的问题。同时，运用此模型进行的 AI 诗歌图灵测试显示高水平的诗歌爱好者不能区分 AI 生成的诗歌与人类的诗歌，显示出此模型在诗歌生成方面的出色表现。此模型有望帮助那些缺乏语言能力和创作灵感的现代诗人。

Nov, 2022

机器能否创作中国传统诗歌？费根鲍姆测试

本文通过基于注意力机制的循环神经网络，利用一组关键字作为主题，生成类似于人类古诗词的诗歌，方法包括字符向量初始化、注重输入和混合式训练等技术。相比于现有的诗歌生成方法，我们的模型生成的诗歌与主题更加一致，语义更加丰富。

Jun, 2016

人工智能在香港中学生创意写作中的作用

本研究探讨了语言模型在创意写作中协助思维方面的应用，经实证发现语言模型的不同角色（如协作者、挑衅者等）为学生作家创造更多创意提供了帮助。

Apr, 2023

ChatGPT 对抗 Bard、Bing、Claude 2、Aria 和人类专家。科学写作上人工智能聊天机器人的表现如何？(版本 23Q3)

AI chatbots in scholarly writing were analyzed, revealing their proficiency in recombining existing knowledge but their limitations in generating original scientific content; the size of LLMs has plateaued, highlighting the challenges in emulating human originality, though the evolution of LLM-powered software is expected to improve this.

Sep, 2023

基于 GPT 的古典华语诗歌生成

利用预训练语言模型生成高质量文言诗的简单有效方法。该方法采用 GPT 模型，生成各种形式的文言诗，包括绝句、律诗、词牌和对联。同时进行了微调并实现了生成藏头诗的方法。我们已在微信上发布了一个在线演示程序，以展示这种方法在生成文言诗方面的能力。

Jun, 2019

图灵欺骗

本研究重新审视了经典的图灵测试，并比较了最近的大型语言模型（如 ChatGPT）重现人类水平的理解和引人入胜的文本生成的能力。我们为 ChatGPT 提供了两个任务挑战，即 summarization 和 question answering，并使用 OpenAI GPT-2 Output Detector 来评估原始和生成的内容。我们针对 ChatGPT 的撰写机制提出了一套评估可读性和统计清晰度、参与度、传递和总体质量的度量和简单语法集。

Dec, 2022

深度诗歌：一个中国古典诗歌生成系统

本文介绍了一个名为 Deep Poetry 的中国古典诗歌生成系统，它使用神经网络进行训练，并可以接受多模态输入。该系统可接受普通文本、图像或艺术概念等输入来生成中国古典诗歌，并且允许用户参与诗歌创作过程。该系统部署在微信小程序平台上，用户可在移动设备中随时随地使用。

Nov, 2019

浪漫计算

本文比较了各种文本生成模型在写作早期英国浪漫主义诗歌方面的能力，通过系统测试和 GRUEN 评估指标，发现变压器模型的质量明显优于递归神经网络模型，并随着参数大小的增加而进一步提高。

Jun, 2022

测试 GPT-3 的创造力（替代用途）

我们评估了 Open AI 的生成式自然语言模型 GPT-3 在 Guilford 的替代用途测试中的创造力，结果显示人类目前在创造性输出方面表现优于 GPT-3，但我们相信这只是时间问题。

Jun, 2022

基于无词汇模型的语言模型生成更有准确格式的中国古典诗歌

本研究通过验证现行基于标记的大型语言模型在标记 - 字符关系方面的知识限制，并提出一种基于字符级或字节级标记的无标记模型，该模型在格式准确性方面表现优异，为解决生成中文古典诗歌的格式问题提供了一个可行的解决方案。

Jan, 2024